推荐系统学习——单图负采样 (UNS)

1.单图负采样是什么

          单图负采样,Unigram Negative Sampling (UNS)是Word2Vec中的一种负采样方法,用于在训练Skip-gram模型时选择负样本。在UNS中,负采样的概率与单词的频率有关,高频词被选为负样本的概率较大,低频词被选为负样本的概率较小。这样可以更好地平衡高频词和低频词在负采样中的权重,提高训练效果。UNS相比于传统的负采样方法,能够更有效地提高训练速度和模型性能。

2.单图负采样解决了什么问题

       解决计算效率问题:在传统的训练词向量模型中,通常需要对整个词汇表进行softmax计算,以确定目标词与上下文词的关系。这样的计算复杂度随着词汇表规模的增加而呈指数级增长,导致训练过程变得非常耗时。UNS 通过负采样的方式,显著降低了计算成本,使得训练过程更加高效。

       改善词向量的质量:UNS 通过负采样的方式,可以更好地学习词向量,特别是针对频率较低的词汇,以及更好地捕捉词汇之间的语义关系。这有助于提高词向量的质量,并且可以更好地应用于自然语言处理任务中,如文本分类、情感分析和推荐系统等。 

3.UNS计算过程

       在 UNS 中,负采样的概率与单词的频率有关。具体来说,对于一个单词 w,其被选择为负样本的概率计算如下:

                                     P(w_i) = \frac{f(w_i)^{3/4}}{\sum_{j=1}^{n}f(w_j)^{3/4}}

       其中 f(w_i) 代表单词 w_i 的频率,n 代表词汇表的大小。这个公式中的  f(w_i)^{3/4} 是为了降低高频词被选中的概率,使得低频词有更大的机会被选为负样本。

       在实际应用中,进行采样时可以根据上面的概率分布进行抽样,从而选择负样本。这样,相比于传统的负采样方法,UNS 能够更好地平衡高频词和低频词在负采样中的权重,提高模型的训练效果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值