一、probabilistic Language Modeling
目标:计算一个句子或句子中单词出现的概率
怎么计算?The chain rule 计算联合概率
可以直接用count来估计概率吗?不可以
马尔可夫假设(Markov Assumption):滑动窗口,只与临近的几个词有关
Unigrams: 每个单词独立,与其他词没有关系
Bigram model: 认为只与相邻的前一个词有关系(实际上不是很够)
N-gram models:
- 扩展到trigrams, 4-grams, 5-grams。
- 一般经验上,bigram和trigrams比较常用。(实际上insufficient)但是long-distance dependencies的情况比较少,长尾事件忽略掉。
计算时,将乘法转化为log相加。
Google N-Gram Release, 2006
腾讯release过一个word2vec的中文版
二、Evaluation and Perlexity
extrinsic evaluation of N-gram models
比较模型A和B的效果:
- 把模型放到task上跑,比较效果
困难:花费时间太久。
所以使用 intrinsic evaluationn: perplexity(混淆度、困惑程度)
intuition of perplexity
Shannon Game intuition for perplexity
5.21号有一个NLP顶会的投稿
300