【机器学习】sampled softmax loss

目录

1、前置知识softmax loss

2、sampled softmax

1.1、问题引入

1.2、如何通俗理解sampled softmax机制?

3、sampled softmax loss


1、前置知识softmax loss

回顾一下softmax loss(【机器学习】tf.nn.softmax

简单来说,softmax loss = softmax+cross-entropy

损失函数 - 交叉熵损失函数 - 飞鱼Talk的文章 - 知乎

一文详解Softmax函数 - 触摸壹缕阳光的文章 - 知乎

softmax 介绍 + 公式 + 代码

2、sampled softmax

1.1、问题引入

p_i 观测样本 i 属于类别c的概率。

softmax(Z_i) = \frac{e^{z_i}}{\sum_{c=1}^{C}e^{z_c}} = 0.76 = p_i

z_i : 第i个节点的输出值 1/3/-3(整数);

C : 共有几个节点,即分类类别的个数;

在youtubednn的推荐中,由于视频数量巨大,则C巨大,分母超多,现在想要缩减C的范围。

所以,sample_softmax的思想就是:一个正样本,随机挑选几个负样本,来做多分类的问题。

1.2、如何通俗理解sampled softmax机制?

注意这里只是训练的时候sample,预测的时候还是要预测过程仍然要使用完整的词表。

在nlp中的具体实施,(词表就是resys中所有视频)

但是操作起来异常简单。设定一个词频阈值 \Gamma ,遍历训练语料,当词表大小达到 \Gamma 时,将遍历过的语料设为子集 V_i 。然后清空词表,继续遍历,直到所有句子都被分入子集。

训练模型时,在每个子集依次进行训练,只使用子集词表进行softmax通俗地讲,就是将语料有策略地分成多份,在训练中使用每一份的小词表代替完整词表。

文章提及的sampled softmax只在模型训练过程中使用,在模型预测时依然需要遍历词典。个人感觉跟word2vec中采用的negative sampling有异曲同工之妙。

(我觉得就是一个东西(lll¬ω¬))

如何通俗理解sampled softmax机制? - 知乎

3、sampled softmax loss

类似与softmax loss,就是sample_softmax + cross_entropy。

cross_entropy中的预测概率p是来自sample_softmax的产出。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值