【论文摘要】AvgOut A Simple Output Probability Measure to Eliminate Dull Responses

本文仅为个人对论文的一点理解,如果有不对的地方烦请指正

戳我看论文原文

论文背景

\quad 生成问题面临着很多的挑战,其中一个巨大的挑战就是如何让模型生成富有多样性的回复,模型容易生成安全、简洁、并且没有信息量的回复,比如“I don’t know”,最近很多工作都在尝试让模型的输出变得更加多样化,这篇论文提出了一个让模型生成内容更多样的方法。

\quad 过去有一些工作提出手动标记一些无聊的回复,然后去避免这些回复,然是事实上即使使用很稀有的单词也可以产生很多无聊的回复。

\quad 强化学习部分可参考教程(我也是第一次学)

论文方法

AVGOUT指标

\quad 论文提出了AVGOUT(Average Output Probability Distribution)指标,以动态追踪模型对于选词的偏好。这个指标通过衡量一个batch中每个单词的平均选择概率来实现,每次训练好一个mini-batch之后以较小的比重来更新总的单词概率(如下图)
在这里插入图片描述
\quad 总体的单词出现概率越平均,则可以认为模型生成的多样性越好。但是这样也有弊端,比如多个比较常见的单词可以组合成多样独特的表达,但是这样的行为在这样的指标下会被判定为不好的行为。

三种应用这种指标的方法
1.Regularization by Minimizing Continuous-AVGOUT

\quad 直接将AVGOUT算入到loss中,通过计算之前的平均概率分布与当前batch的平均概率分布的点乘来获取当前batch的“无聊度”,一个单词在之前出现的越多那么它在当前的batch中就会贡献越多的“无聊度”,用(1-无聊度)来代表当前batch的多样性,并用超参数 α \alpha α来平衡它和正常loss所占的比重。
在这里插入图片描述
在这里插入图片描述

2.Label-Fine-Tuning Model

\quad 把多样性得分(0到1之间的连续数值)当成一个先验知识,通过生成一个控制embedding规模(可能是把embedding所有维度都设置成多样性得分?)来把多样性得分作为一个单词输入给模型,训练数据的多样性得分由人工标注得到,希望模型可以学习到多样性得分与ground-truth语句之间的关系,这样在生成过程中就可以通过手动修改模型输入的多样性得分来控制模型输出的多样性。

3.Reward-Based Reinforcement Learning

\quad 增强学习部分可以看上面给出的文档获得一个基本的认识。简而言之就是模型已经训练好,通过继续的训练修正一些行为,与正常的机器学习不同的是增强学习可能没有ground-truth,让模型先生成出完整的语句,通过我们对完整语句的打分来让模型做出修正,这样可以迫使模型学习到更多的规则,让模型在应用性上更强大。

\quad 大部分模型在生成过程中很容易会生成重复的话(一句话中反复说一些词组,或者重复某个语句),但是之前的方法并不能防止这种情况的发生(传统训练可以让模型知道下一个单词应该输出什么,但是模型很少会有句子层面上的整体认识)。为此论文提出了Discrete-AVGOUT来进行强化学习,在这里无聊度计算方式为模型所有选择的单词的概率之和除以出现过的不同单词总数,也就是说,出现过的单词越少(重复)句子越无聊,单个单词所占概率越大(模型偏向越大)句子也越无聊。
在这里插入图片描述

【HINT】

\quad 正常训练和增强训练是天然的补充,于是论文又做了同时使用1,3两种方法训练的尝试,详细内容可以在论文中找到。

结果

\quad 方法2在原有指标上(答案相关性)取得的效果最好,因为方法2并没有改变模型Loss的计算方式,因此没有把模型拉到奇怪的方向,这很好理解。在模型多样性上来看,第一种方法获得的结果最好,稍微想想也很好理解。

个人总结

\quad 论文选取了一个当下热门的研究topic,提出了自己的多样性指标,并使用了很多不同的方法来应用自己的指标。
\quad 总的来说,奇怪的知识增加了.jpg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值