参考笔记 Part 1、回顾word2vec的主要思想 遍历语料库中的每个词预测中心词的上下文 然后在每个窗口中计算梯度做随机梯度下降法(SGD) 随机梯度下降法与词向量 每个窗口最多有2m+1个单词,所以梯度矩阵是很稀疏的我们只要更新经常出现词向量:方案:所以每次更新只更新WW矩阵中的少数列,或者为每个词语建立到词向量的哈希映射 Part 2、 Part 3、 Part 4、