一些本人的理解如下:
事件\(D|w_c,w_o\)的意思是以\(w_c\)作为中心词,\(w_o\)是否来自其上下文,若\(D=1\)则表示来自,否则表示不来自
式\((14.17)\)也比较好理解,两个词向量的内积可以衡量两个的相似程度(长度以及夹角)
文中“正样本的事件”指的是\(D=1\);“词向量等于无穷大”指的是如果模型直接令所有词向量的每个元素的值都是无穷大的时候,式\((14.18)\)就最大了,但是这个样子显然没有意义
负采样的思想是基于我们可以人为设定似然函数。以前的似然函数只包含了“出现了什么”(\(D=1|w_c,w_o\)),我们还可以添加项“没有包含什么”(\(D=0|w_c,w_o\))
但是为什么不直接令条件概率为\(\text{Sigmoid}\)函数呢?这一点有点不解
14.2.1 负采样
最新推荐文章于 2025-05-19 20:18:50 发布