文章内容
1、word2vec模型:skipgram和CBOW
2、训练优化:hierarchical softmax 和 negative sampling.
一、CBOW模型
CBOW完成的事情是:用给定上下文预测中心词,假设输入的上下文只有一个单词,用这个单词预测接下来的词语,类似于Bigram.
输入:单词的one-hot编码。维度是词典大小,输入层和隐藏层之间是全连接。 输出是单词表中的V个单词的概率。
文章内容
1、word2vec模型:skipgram和CBOW
2、训练优化:hierarchical softmax 和 negative sampling.
一、CBOW模型
CBOW完成的事情是:用给定上下文预测中心词,假设输入的上下文只有一个单词,用这个单词预测接下来的词语,类似于Bigram.
输入:单词的one-hot编码。维度是词典大小,输入层和隐藏层之间是全连接。 输出是单词表中的V个单词的概率。