1、word2vec的原理
word2vec是一个把词语转化为对应向量的形式。word2vec中建模并不是最终的目的,其目的是获取建模的参数,这个过程称为fake task。
有两种实现方法:连续词袋模型CBOW和skip-gram
连续词袋模型CBOW
在上下文已知的条件下计算当前单词出现的概率,最大化这个概率
公式:,t=0,1,2.....m,m为文本的单词数
转化为求对数的形式:
content(wt)是将上下文单词的综合作为输入。
skip-gram模型
已知当前单词,求上下文单词出现的概率,最大化这个概率
公式:
转化成求对数的形式: