Brief description
基于对模型SGM(Seq2Seq)的改进。[发表于COLING2018]
在SGM的基础上加了一个Set decoder,利用set的无序性,降低错误的标签排序带来的影响。(对于作者在Sequence decoder上叠加一个Set decoder的做法,并不是特别理解其必要性)
SGM存在的问题:
- 当所要预测的标签序列长度增加时,F1值下降,HL上升,即结果变差。
- 输出结果的内部顺序依赖于标签空间的排序 。
Seq2Set出发点:
- 基于SGM问题2进行了改进,所提出得新模型利用了深度强化学习,不仅捕捉到标签之间的相互关系,而且减少了对标签序列的依赖。
Seq2Set仍存在的问题:
- 在低频标签上效果差,因为MC采样时在低频标签上更为稀疏。(author)
- Sequence decoder 中仍然通过标签的出现频率排序,t时刻只能学习到前面标签的内容,低频的排在后面的标签内容无法学习到。所以不能很好的拟合标签内部的相关性。(me)
个人小结:
- 模型SGM、Seq2Set都把多分类问题当成一个序列生成任务,通过seq2seq框架来模拟标签之间的内在关联。虽然结果确有提升,但通过序列生产的方式是否能学习到标签内部的关联性还有待商榷。
- Seq2Set 使用了self-critical policy gradient算法来训练模型。(有待进一步了解此算法)