讲解语言模型:
专家语法规则模型(80年代):自然语言的语法规则。
统计语言模型(00年代):计算一个句子出现的概率,概率越大,句子越合理。
神经网络语言模型(至今):2003年Bengio提出词向量的概念,离散变量(高维)/连续变量(具有一定维度的实数向量,单词的分布式表示),可以看作使用神经网络编码的n-gram模型。
https://www.cnblogs.com/dyl222/p/11005948.html
讲解word embedding发展的两篇详细文章:
https://zhuanlan.zhihu.com/p/49271699 one-hot, n-gram, co-occurrence matrix, NLM, Word2vec
https://blog.csdn.net/L_R_H000/article/details/81320286 Word2vec->Bert
word2vec数学原理