CBOW与Skip-Gram
两个训练任务,过程中产生VxD的矩阵,可以用于将独热编码压缩缩短,得到的矩阵叫embedding矩阵。
CBOW
![这里写图片描述](https://img-blog.csdnimg.cn/img_convert/746bceb4339e03f08cbf6c6d08644523.png)
根据矩阵的维度思考:第一个是VxN,用于实现维度压缩;第二个是NxV为了得到这个位置上是语料库中任意一个单词的概率,通过softmax 最大化groundtruth(真实单词)的概率,反向传播训练得到矩阵。
参考
Skip-Gram
![新知达人, 【图文并茂】通过实例理解word2vec之Skip-gram](https://img-blog.csdnimg.cn/img_convert/d46a637a175d9d3da334b710ef7716ea.png)
![新知达人, 【图文并茂】通过实例理解word2vec之Skip-gram](https://img-blog.csdnimg.cn/img_convert/5dcd85d6b2c9fd6eafd873543155e932.png)
中间同样实现降维,降维后再输出到V维度上概率,表示该位置单词成为这个单词上下文的概率。
第一个仍然是降维矩阵,第二个是为了得到概率的矩阵,然后最终的损失函数是这个单词的上下文的单词的概率最大。
![新知达人, 【图文并茂】通过实例理解word2vec之Skip-gram](https://img-blog.csdnimg.cn/img_convert/b972b99ae7e83593d5daaa30674ab377.png)
参考