仅供本人参考,错了概不负责
一、Word2Vec
思路:one-hot的word represents信息太离散,不符合客观现实。考虑如何把信息整合,使之不那么sparse?
两种方式
1. Skip-Gram
2. CBOW
下图为window size = 2,中间次和周围词的对应关系
Skip-Gram做的事情是 中心预测window size的单词,而CBOW是 window size单词预测中心单词
1. Skip-Gram
输入是one-hot,通过NN,得到N-dim的向量,这个Wv*n就是词向量,每行对应一个单词的vector。再通过后面的网络,预测window size的单词,以此训练得到Skip-Gram模型,进而得到副产品,word embedding矩阵Wv*n。
2.CBOW
和Skip-Gram过程相反