自然语言处理基础
1. 引言
-
图灵测试
-
快速了解自然语言处理发展的论文:Advances in Natural Language Processing
2. 基本任务
-
词性标注、命名实体识别、共指消解、依存句法
-
中文自然语言处理特殊任务:中文自动分词
-
应用:情绪分析、意见挖掘、机器翻译、知识图谱、社会科学、文本匹配
3. 词表示
-
定义:把词语变成机器能够理解的形式
-
两种计算能力:词相似度、词关系
-
利用近义词/上位词进行表示
-
利用独热编码进行词表示
缺点:没有词相关性
-
利用上下文进行词表示
缺点:数据稀疏、存储需求大
-
利用词嵌入进行词表示(Word Embeddding)
代表工作:Word2Vec
4. 语言模型
-
目的:根据前文预测下文
-
任务:词序列联合概率(合法性、可理解性)、预测
-
表示:\begin{aligned}P(w_1,w_2,\cdots,w_n)&=\prod_iP(w_i|w_1,w_2,\cdots,w_{i-1})\end{aligned}
-
N-gram Model
eg:4-gram \begin{equation}P(w_j|\text{never to late to})=\frac{\text{count(too late to w j)}}{\text{count(too late to)}}\end{equation}
-
问题:当N变大时存储复杂度急剧上升、无法表示词之间的相似度
-
Neural Language Model