1-3 节课总结
语义理解任务介绍
简单来说就是理解一句话的意思
Word2Vec
训练方法
CBOW & Skip-Ngram (2013 年)
- CBOW:基于临近词(上下文)预测词
- Skip-Ngram:基于词预测临近词(上下文)
利用深度学习的技术
- 核心: 通过embedding层将词转化为对应的向量
如何使用
对训练出的词向量增加下游操作后进行运用
存在的问题
- 词向量是静态固定的,无法根据上下文语义调整词向量!
- 在下游任务中,其余的模型参数仍然需要重新训练 !
Pre-training & Fine-tuning 机制
ELMo : 第一个现代的语义理解模型
• Pre-training 阶段
• 使用Bi-LSTM语言模型建模
• 两层LSTM
• 双向语言模型建模(L - R,R - L)
• 无监督训练,训练数据 1B Word
核心思想:只预训练 language model,而 word embedding 是通过输入的句子实时输出基于上下文的动态 Word Embedding
使用方法:通过对输出线性组合后进行下一个任务
优点和缺点
优点:解决了多词多意的问题
问题1:不完全双向预训练
模型的前向和后向 LSTM 两个模型是分别训练的,仅在 Loss Function阶段进行了结合。
问题2:需进行任务相关网络结构设计
每种类型的下游任务都需要进行特定的网络结构设计和搭建
问题3:仅有词向量,无句向量
ELMo 在预训练阶段仅学习了语言模型,无句向量学习任务
GPT
Bert
与GPT的不同
用的是transformer的解码器能够捕获双向信息,并且使用了不同的训练方法可以捕获句子的信息(通过next-sentence的任务)。
ERNIE
与Bert不同
使用了更丰富的训练方法,效果更好
基于Bert 的双塔和单塔文本匹配
词法分析
词法分析的概念
词法分析的技术
字符串匹配
统计模型
序列标注模型
rnn
CRF
将结果经过一个crf矩阵以后再进行输出,crf矩阵表示相同类别之间的相关性。