用于提升多样性的Maximum Mutual Information算法

本文探讨了如何使用Maximum Mutual Information (MMI)算法解决seq2seq模型中的多样性问题。通过引入双向依赖关系并优化beam search,MMI能够增强序列生成的多样性,避免生成过于常见或无意义的回答。同时,MMI结合源和目标序列的概率来重新排列候选序列,以选择最具信息量的回复。
摘要由CSDN通过智能技术生成

MMI:Maximum Mutual Information

1. 背景

​ 在传统的seq2seq领域,多样性问题一直是个令人困扰的问题,一个典型的例子就是bot领域,在回答的时候容易生成一些非常safe,grammatical的reply,比如“呵呵”,“I don’t know”之类,这些回答可以顺应人们的问题,但是基本没有太多实际的意义,试想,谁会使用一个问啥都说不知道的bot呢。

​ 针对这个问题,有很多相关的研究,比如模型派倾向于通过复杂精妙的模型来提升diversity,也有一些研究倾向于在损失函数领域作出有效调整,本篇论文便是损失函数领域的工作。

​ 尽管seq2seq有着需要专业领域知识少,可以端到端训练,可以学习到source sentence与target sentence之间的语义和句法信息等优势,不过,它也有只建模source->target的单向关系,而忽略了target->source的依赖关系的劣势,而反向依赖在phrase-based的模型上有着良好的表现,所以,如果可以为seq2seq模型加入这个信息,模型的能力应该会有比较好的提升。

​ 基于这样的想法,作者提出在seq2seq中引入双向关系,并通过最大化互信息来改善seq2seq的效果。

2. 互信息

​ 在概率论信息论中,两个随机变量互信息(mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度。不同于相关系数,互信息并不局限于实值随机变量,它更加一般且决定着联合分布 p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的相似程度。互信息是点间互信息(PMI)的期望值。互信息最常用的单位bit

​ 一般地,两个离散随机变量 XY 的互信息可以定义为:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HOmvarhq-1632883389535)(https://wikimedia.org/api/rest_v1/media/math/render/svg/6a75f80322072168ff9ecb8cde63cca5aa9218e1)]

​ 其中 p(x, y) 是 XY联合概率分布函数,而 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GgkF7NyK-1632883389537)(https://wikimedia.org/api/rest_v1/media/math/render/svg/8cb7afced134ef75572e5314a5d278c2d644f438)] 和 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XXj8Ndlk-1632883389539)(https://wikimedia.org/api/rest_v1/media/math/render/svg/6b2c472d927e5b59281522a993493664cd3f4422)] 分别是 XY边缘概率分布函数。

​ 在连续随机变量的情形下,求和被替换成了二重定积分

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FeW6c8rV-1632883389541)(https://wikimedia.org/api/rest_v1/media/math/render/svg/1caffcbf585eb07b171b1def8b2b5fd0290a904e)]

​ 其中 p(x, y) 当前是 XY 的联合概率密度函数,而 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LHII9t1p-1632883389542)(https://wikimedia.org/api/rest_v1/media/math/render/svg/8cb7afced134ef75572e5314a5d278c2d644f438)] 和 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OeqD4us7-1632883389543)(https://wikimedia.org/api/rest_v1/media/math/render/svg/6b2c472d927e5b59281522a993493664cd3f4422)] 分别是 XY 的边缘概率密度函数。

​ 上面的公式不够直观,可以进行如下的化简:
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲I(X;Y) &= \int_…
​ 直观上,互信息度量 XY 共享的信息:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。例如,如果 XY 相互独立,则知道 X 不对 Y 提供任何信息,反之亦然,所以它们的互信息为零。在另一个极端,如果 XY 的一个确定性函数,且 Y 也是 X 的一个确定性函数,那么传递的所有信息被 XY 共享:知道 X 决定 Y 的值,反之亦然。因此,在此情形互信息与 Y(或 X)单独包含的不确定度相同,称作 Y(或 X)的。而且,这个互信息与 X 的熵和 Y 的熵相同。(这种情形的一个非常特殊的情况是当 XY 为相同随机变量时。)

3.流程

​ 论文主要通过3步

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值