Skip-gram 模型
基于预测的语言模型(by Mikolov)
通过中心词来推断上下文一定窗口内的单词。
输入一个词 ,模型使用含有一个隐藏层的神经网络去正确预测 的上下文词 。
损失函数的推导
Skip-gram 模型试图在给定中心词的情况下,同时正确预测它的所有上下文词的概率达到最大:
是窗口大小, 是一个词向量
对 式取对数简化求导:
在 skip-gram 模型中,用 softmax 函数作上下文词分类,softmax 的数学表示:
代入 ,在给定中心词的情况下,将它的所有上下文词的概率最大化:
对于机器学习,习惯最小化损失函数,对