自然语言处理
????????????line:233
这个作者很懒,什么都没留下…
展开
-
基于特征的文法
之前的章节,我们了解到了入了使用采用符号标记的规则来分析文本,在之前我们使用的都是单个简单标记,比如S、V、NP等等,他们不能够再分,内部不再具有其他内容。 而这一章就是用特征属性来扩展标记,特征的加入,使文法的表达更加强大。比如动词可以增加是否及物、时态的属性。以下我们来展示基于特征的语法的几种应用。 句法协议 通过属性,我们可以指定动词和名词的单数/复数属性,在语句匹配生成中,我们...原创 2020-04-23 22:18:23 · 221 阅读 · 0 评论 -
文本分类
文本分类是一个很广泛的话题,可以是将词划分为不同时态,将人名分为男女,也可以是将整篇文章划分为不同主题。 文本分类主要应用有监督分类技术,其结构如下图所示。 以下介绍三种监督学习的方法: 决策树 参考:https://blog.csdn.net/Line2333/article/details/105143018 朴素贝叶斯分类器 朴素贝叶斯分类器原理十分简单,其核心主要是条...原创 2020-04-18 22:56:52 · 322 阅读 · 0 评论 -
从文本提取信息:分块、实体名称识别、关系提取
这一章开始,就主要开始分析句子的结构、意义等。这一章的内容主要负责一些初级部分,比如对句子进行NP分块,识别名称实体,进行关系的抽取。 这里不按照主题进行讨论,而按照方法范式进行讨论。 基于正则表达式的方法 基于正则表达式的方式十分容易理解,它就是通过一系列的正则表达式规则来进行这些任务,确定输出。 比如对于分块,有两种方式,第一种是正则表达式直接定义分块,第二种是先将整体作为一块,...原创 2020-04-18 22:54:57 · 724 阅读 · 0 评论 -
词性标注
词性标注是自然语言处理中比较基础的部分 词性标注采用监督学习 和词性相关的几种因素 形态学 句法 语义 几种算法: 正则表达式标注器 基于(人为设定的)规则,比如ing结尾,标记为动词 查询标注器 类似unigram N-gram标注器 unigram:每个单词最可能的词性 bi...原创 2020-04-02 17:28:15 · 341 阅读 · 0 评论