©PaperWeekly 原创 · 作者|苏剑林
单位|追一科技
研究方向|NLP、神经网络
前些天笔者写了CRF用过了,不妨再了解下更快的MEMM?,里边提到了 MEMM 的局部归一化和 CRF 的全局归一化的优劣。
同时,笔者联想到了 Seq2Seq 模型,因为 Seq2Seq 模型的典型训练方案 Teacher Forcing 就是一个局部归一化模型,所以它也存在着局部归一化所带来的毛病——也就是我们经常说的“Exposure Bias”。
带着这个想法,笔者继续思考了一翻,将最后的思考结果记录在此文。
▲ 经典的 Seq2Seq 模型图示
本文算是一篇进阶文章,适合对Seq2Seq模型已经有一定的了解、希望进一步提升模型的理解或表现的读者。关于Seq2Seq的入门文章,可以阅读旧作玩转Keras之seq2seq自动生成标题和从语言模型到Seq2Seq:Transformer如戏,全靠Mask。
本文的内容大致为:
Exposure Bias 的成因分析及例子;
简单可行的缓解 Exposure Bias 问题的策略。
Softmax
首先,我们来回顾 Softmax 相关内容。大家都知道,对于向量 ,它的 Softmax 为:
由于 是关于 的严格单调递增函数,所以如果 是 中的最大者,那么 也是 中的最大者。
对于分类问题,我们所用的 loss 一般是交叉熵,也就是: