目录
1、前置知识softmax loss
回顾一下softmax loss(【机器学习】tf.nn.softmax)
简单来说,softmax loss = softmax+cross-entropy
损失函数 - 交叉熵损失函数 - 飞鱼Talk的文章 - 知乎
一文详解Softmax函数 - 触摸壹缕阳光的文章 - 知乎
2、sampled softmax
1.1、问题引入
p_i 观测样本 i 属于类别c的概率。
z_i : 第i个节点的输出值 1/3/-3(整数);
C : 共有几个节点,即分类类别的个数;
在youtubednn的推荐中,由于视频数量巨大,则C巨大,分母超多,现在想要缩减C的范围。
所以,sample_softmax的思想就是:一个正样本,随机挑选几个负样本,来做多分类的问题。
1.2、如何通俗理解sampled softmax机制?
注意这里只是训练的时候sample,预测的时候还是要预测过程仍然要使用完整的词表。
在nlp中的具体实施,(词表就是resys中所有视频)
但是操作起来异常简单。设定一个词频阈值 ,遍历训练语料,当词表大小达到 时,将遍历过的语料设为子集 。然后清空词表,继续遍历,直到所有句子都被分入子集。
训练模型时,在每个子集依次进行训练,只使用子集词表进行softmax。通俗地讲,就是将语料有策略地分成多份,在训练中使用每一份的小词表代替完整词表。
文章提及的sampled softmax只在模型训练过程中使用,在模型预测时依然需要遍历词典。个人感觉跟word2vec中采用的negative sampling有异曲同工之妙。
(我觉得就是一个东西(lll¬ω¬))
3、sampled softmax loss
类似与softmax loss,就是sample_softmax + cross_entropy。
cross_entropy中的预测概率p是来自sample_softmax的产出。