推荐系统学习——动态负采样(DNS)

1.DNS是什么

       DNS(Dynamic Negative Sampling)是一种负采样方法,它在Word2Vec模型的训练中提出,用于解决传统负采样方法中难以平衡高频词和低频词的问题。DNS 方法通过动态调整负采样概率来更好地处理高频词和低频词之间的权衡关系。

2.DNS主要解决了什么问题

       DNS(Dynamic Negative Sampling)主要解决了传统负采样方法中难以平衡高频词和低频词之间采样概率的问题。在Word2Vec等词向量模型中,通常需要从上下文中选取正样本词和负样本词进行训练,而传统的负采样方法中采样概率是固定的,导致在训练过程中无法很好地处理高频词和低频词之间的权衡关系。

       DNS 方法通过动态调整负采样概率,使得低频词更容易被选为负样本,而高频词则相对较少被选取,从而更好地平衡了不同词汇在训练中的重要性。这种动态调整的方式可以提高模型对低频词的学习效果,同时避免了高频词对训练的过度影响,从而改善了训练效果和词向量的质量。

3.DNS动态负采样的过程

       初始化参数:首先,DNS 需要初始化一些参数,包括每个词的词频信息和初始的负采样概率分布。

       计算负采样概率:根据每个词的词频信息和初始的负采样概率分布,计算每个词被选为负样本的概率。通常情况下,低频词的负采样概率会相对较高,而高频词的负采样概率则相对较低。

       动态调整概率:在训练过程中,DNS 方法会根据模型当前的状态和训练进度,动态地调整负采样概率分布。这种动态调整可以根据具体的需求来灵活地更新负采样概率,以适应不同阶段的训练需求。

       负采样:在每次训练时,根据动态调整后的负采样概率分布,选择负样本词。通常情况下,低频词被选为负样本的概率较高,而高频词的概率较低,从而实现了对高频词和低频词的平衡采样。

       更新参数:使用选取的正样本词和负样本词进行训练,并更新模型参数,不断优化模型效果。

  • 7
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值