一,语言模型
【定义】:预测每个句子在语言中出现的概率(预测句子在语言中的概率,合法的句子概率较高)
- 仅仅是对句子出现的概率进行建模,并不会去理解句子的意思
【例子】:
【问题】:每计算一个句子在语言模型中的概率会将整个句子所有可能出现的概率进行乘积
- 这样会导致参数过多和过于稀疏,因为一个长句子出现的特异性概率是很小的
- 提出基于马尔科夫假设:
【n-gram】:
二,词向量
【独热编码】:
【分布式表示】:
【词向量训练】
- 没有方法可以直接训练词向量,我们都是在训练语言模型的同时间接的获取到词向量
三,NNLM/神经网络语言模型
- 利用前面三个词来预测第四个词是什么
四,RNNLM/循环神经网络语言模型
- 可以真正的利用所有前文信息来预测下一个词(前面的方法都是采用n大小的滑动窗口)
五,CBOW/连续词袋模型
六,Skip-gram/跳字模型
七,问题