《Jam or Cream First?Modeling Ambiguity in Neural MachineTranslation with SCONES》https://arxiv.org/pdf/2205.00704.pdf
前言
之前有负责过一个层级多标签分类的项目,所以对于由多分类到多标签的区别十分清楚,最近刷到这篇论文顿时来了兴趣,然后发现方法也十分简单,基本就是一个标准多标签任务的模式。尽管简单,但这样做并不是为花而花的“花板子”,其准确抓住当前机器翻译训练方式导致的问题——decoding过程中模型输出层的softmax抑制了“非ground truth但合理”词的生成可能性,而转化为多个二分类+sigmoid的常见多标签任务形式则正好避开了这一问题,所以重点就转移到了对如何拆分建模为多个二分类任务以及有效的多标签loss的设计。
从多分类到多标签
这里先快速介绍下多标签(multi-label)分类的一种典型模式。
抛开模型结构,常见的单标签