【机器学习】sampled softmax loss

sdbhewfoqi

于 2021-04-29 16:41:28 发布

阅读量2.2k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_31866177/article/details/115527796

版权

机器学习专栏收录该内容

72 篇文章 23 订阅

订阅专栏

目录

1、前置知识softmax loss

2、sampled softmax

1.1、问题引入

1.2、如何通俗理解sampled softmax机制？

3、sampled softmax loss

1、前置知识softmax loss

回顾一下softmax loss（【机器学习】tf.nn.softmax）

简单来说，softmax loss = softmax+cross-entropy

损失函数 - 交叉熵损失函数 - 飞鱼Talk的文章 - 知乎

一文详解Softmax函数 - 触摸壹缕阳光的文章 - 知乎

softmax 介绍 + 公式 + 代码

2、sampled softmax

1.1、问题引入

p_i 观测样本 i 属于类别c的概率。

$softmax(Z_i) = \frac{e^{z_i}}{\sum_{c=1}^{C}e^{z_c}} = 0.76 = p_i$

z_i : 第i个节点的输出值 1/3/-3（整数）；

C : 共有几个节点，即分类类别的个数；

在youtubednn的推荐中，由于视频数量巨大，则C巨大，分母超多，现在想要缩减C的范围。

所以，sample_softmax的思想就是：一个正样本，随机挑选几个负样本，来做多分类的问题。

1.2、如何通俗理解sampled softmax机制？

注意这里只是训练的时候sample，预测的时候还是要预测过程仍然要使用完整的词表。

在nlp中的具体实施，（词表就是resys中所有视频）

但是操作起来异常简单。设定一个词频阈值 $\Gamma$ ，遍历训练语料，当词表大小达到 $\Gamma$ 时，将遍历过的语料设为子集 $V_i$ 。然后清空词表，继续遍历，直到所有句子都被分入子集。

训练模型时，在每个子集依次进行训练，只使用子集词表进行softmax。通俗地讲，就是将语料有策略地分成多份，在训练中使用每一份的小词表代替完整词表。

文章提及的sampled softmax只在模型训练过程中使用，在模型预测时依然需要遍历词典。个人感觉跟word2vec中采用的negative sampling有异曲同工之妙。

(我觉得就是一个东西(lll￢ω￢))

如何通俗理解sampled softmax机制？ - 知乎

3、sampled softmax loss

类似与softmax loss，就是sample_softmax + cross_entropy。

cross_entropy中的预测概率p是来自sample_softmax的产出。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】sampled softmax loss

前置知识损失函数 - 交叉熵损失函数 - 飞鱼Talk的文章 - 知乎 https://zhuanlan.zhihu.com/p/35709485一文详解Softmax函数 - 触摸壹缕阳光的文章 - 知乎 https://zhuanlan.zhihu.com/p/105722023softmax 介绍 + 公式 + 代码sampled softmax如何通俗理解sampled softmax机制？ - 知乎 https://www.zhihu.com/quest...
复制链接

扫一扫

专栏目录

sdbhewfoqi CSDN认证博客专家 CSDN认证企业博客

码龄9年

613: 原创

1万+: 周排名

1971: 总排名

110万+: 访问

: 等级

1万+: 积分

1239: 粉丝

778: 获赞

210: 评论

3269: 收藏

私信

关注

热门文章

分类专栏

最新评论

【Python】多进程线程与CPU核数
ChitaWang: 请问博主，我用超算运行我的并行Python程序，因为我的数据有3万行，为了提高运行效率，我把Python代码改成了可以将原始数据分成200个子集同时并行的程序，是不是就需要再超算中申请200个进程数，每个进程需要1个核？因为我一开始申请的是1个进程，64个CPU核，速度和电脑一样，就很奇怪是不是我并没有真正地让超算并行起来？
【Python】通过字典映射调用方法
m0_60667384: 支持一下，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
【推荐系统】召回与排序区别
一个学数学的程序媛: 候选池小根本不用做召回，可以直接排序。这句话貌似不对的样子，召回与排序应该还是有本质区别的把，比如召回就是区分正负样本，过滤掉用户必定不感兴趣的item，如果直接排序，就会导致推荐出了较多用户不是真正感兴趣的...纯个人理解，还想得到前辈的回应。
【hive】数据倾斜-大表小表join优化mapjoin
DataSience: 他是join，然后mapjoin中是小表就可以。如果是left 那就放前边
miniconda3安装window 无法pip
普通网友: 感谢大佬分享好文，学到了不少新知识，支持大佬，期待大佬持续输出优质文章！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。