NLP学习路径（一）：NLP基础知识

最新推荐文章于 2024-08-07 11:38:54 发布

jiaojiaolou

最新推荐文章于 2024-08-07 11:38:54 发布

阅读量2.3k

点赞数

分类专栏：学习笔记 NLP 文章标签： NLP

本文链接：https://blog.csdn.net/jiaojiaolou/article/details/88602078

版权

学习笔记同时被 2 个专栏收录

31 篇文章 2 订阅

订阅专栏

NLP

14 篇文章 1 订阅

订阅专栏

1、基本术语：
（1）分词
分词常用手段：基于字典的最长串匹配，但歧义分词很难。比如：美国/会/通过法案。美/国会/通过法案。
（2）词性标注
词性：动词、名词、形容词等
目的：表征词的一种隐藏状态，隐藏状态构成的转移就构成了状态转移序列。比如：我/r爱/v中国/ns。其中，ns代表名词，v是动词，ns，v都是标注。
（3）命名实体识别
指从文本中识别具有特定类别的实体（通常是名词），例如人名、地名、机构名、专有名词等。
（4）句法分析
基于规则的专家系统。
目的：解析句子中各个成分的依赖关系。比如：小明是小张的老师。小张是小明的老师。这两句话的词袋模型一样，但是主从关系不同。
（5）指代消解
中文中代词出现的频率很高，通常用来表征前文出现过得人名，地名等。
（6）情感识别
情感识别是分类问题，通常应用在舆情分析方向。一般分为正面与负面情感。比如可以运用在商品评价，作为下一次评判的依据。
方法：基于词袋模型+分类器；词向量模型+RNN
（7）纠错
有时候用户会把内容输错，所以需要一个纠错系统。
方法：基于N-Gram；字典树；有限状态机
（8）问答系统
类似siri

2、语料库
（1）中文维基百科
（2）搜狗新闻语料库
（3）IMDB情感分析语料库

3、NLP层面
（1）词法分析
汉语的分词和词性标注。首先要做的是将输入的文本切分为单独的词语，然后在此技术上进行更高的分析。
（2）句法分析
对输入的文本以句子为单位，进行分析以得到句子的句法结构的处理过程。
方法：
1）短语结构句法体系
作用：识别出句子中的短语结构以及短语之间的层次句法关系
2）依存结构句法体系（浅层句法分析）
作用：识别句子中词与词之间的相互依赖关系
3）深层文法句法分析
作用：词汇化树邻接文法，组合范畴文法等对句子进行深层的句法及语义分析
（3）语义分析
方法：语义角色标注；基于逻辑表达的语义分析

NLP目前普遍主要采用级联方式：分词、词性标注、句法分析、语义分析分别训练模型。实际使用时，给定输入句子，逐一使用各个模块进行分析，最终得到结果。
NLP也可以用联合模型，将多个任务俩安和学习和解码，比如：分词与词性结合，词性与句法结合等。

参考：《python自然语言处理实战核心技术与算法》