自然语言处理是人工智能领域的一个重要前沿方向,语言模型是由自然语言处理发展而来,在人工智能的很多领域发挥重要作用的关键技术。本节主要介绍自然语言处理的基础理论、核心技术与应用任务,以及在自然语言处理中从形式语言模型到统计语言模型再到神经语言模型和预训练语言模型的发展脉络,建立对自然语言处理和语言模型知识结构的全面认识。
自然语言处理:机器对人类语言的理解 Natural Language Processing(NLP)
处理流程:分词——词性标注——语句分析——语义分析
歧义消除:
1、分词歧义
2、文本信息过滤
3、情感/观点分析
4、自动文本摘要
5、有监督词义消除方法
拼音串输入
汉语分词算法:
基于规则的方法:正向最大匹配
基于统计的方法
- 无监督词义消除
- 半监督词义消除
语义角色消除
分词工具
Jieba(基于python开源中文分词够工具)
NLTK(Tokenization)
词性标注
深度学习时代自然语言处理
分布假说
基于矩阵的词分布表示:
基于预测的方法:
自然语言的表示学习
循环神经网络RNN
Transformer
语言模型
统计语言模型—>神经语言模型
预训练语言模型
基于RNN
基于Transformer