用于提升多样性的Maximum Mutual Information算法

最新推荐文章于 2023-03-07 00:30:00 发布

一个好梦

最新推荐文章于 2023-03-07 00:30:00 发布

阅读量649

点赞数

分类专栏：自然语言处理文章标签：算法人工智能

本文链接：https://blog.csdn.net/u013596454/article/details/120544039

版权

本文探讨了如何使用Maximum Mutual Information (MMI)算法解决seq2seq模型中的多样性问题。通过引入双向依赖关系并优化beam search，MMI能够增强序列生成的多样性，避免生成过于常见或无意义的回答。同时，MMI结合源和目标序列的概率来重新排列候选序列，以选择最具信息量的回复。

摘要由CSDN通过智能技术生成

MMI：Maximum Mutual Information

1. 背景

在传统的seq2seq领域，多样性问题一直是个令人困扰的问题，一个典型的例子就是bot领域，在回答的时候容易生成一些非常safe，grammatical的reply，比如“呵呵”，“I don’t know”之类，这些回答可以顺应人们的问题，但是基本没有太多实际的意义，试想，谁会使用一个问啥都说不知道的bot呢。

针对这个问题，有很多相关的研究，比如模型派倾向于通过复杂精妙的模型来提升diversity，也有一些研究倾向于在损失函数领域作出有效调整，本篇论文便是损失函数领域的工作。

尽管seq2seq有着需要专业领域知识少，可以端到端训练，可以学习到source sentence与target sentence之间的语义和句法信息等优势，不过，它也有只建模source->target的单向关系，而忽略了target->source的依赖关系的劣势，而反向依赖在phrase-based的模型上有着良好的表现，所以，如果可以为seq2seq模型加入这个信息，模型的能力应该会有比较好的提升。

基于这样的想法，作者提出在seq2seq中引入双向关系，并通过最大化互信息来改善seq2seq的效果。

2. 互信息

在概率论和信息论中，两个随机变量的互信息（mutual Information，简称MI）或转移信息（transinformation）是变量间相互依赖性的量度。不同于相关系数，互信息并不局限于实值随机变量，它更加一般且决定着联合分布 p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的相似程度。互信息是点间互信息（PMI）的期望值。互信息最常用的单位是bit。

一般地，两个离散随机变量 X 和 Y 的互信息可以定义为：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HOmvarhq-1632883389535)(https://wikimedia.org/api/rest_v1/media/math/render/svg/6a75f80322072168ff9ecb8cde63cca5aa9218e1)]

其中 p(x, y) 是 X 和 Y 的联合概率分布函数，而 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GgkF7NyK-1632883389537)(https://wikimedia.org/api/rest_v1/media/math/render/svg/8cb7afced134ef75572e5314a5d278c2d644f438)] 和 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XXj8Ndlk-1632883389539)(https://wikimedia.org/api/rest_v1/media/math/render/svg/6b2c472d927e5b59281522a993493664cd3f4422)] 分别是 X 和 Y 的边缘概率分布函数。

在连续随机变量的情形下，求和被替换成了二重定积分：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FeW6c8rV-1632883389541)(https://wikimedia.org/api/rest_v1/media/math/render/svg/1caffcbf585eb07b171b1def8b2b5fd0290a904e)]

其中 p(x, y) 当前是 X 和 Y 的联合概率密度函数，而 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-LHII9t1p-1632883389542)(https://wikimedia.org/api/rest_v1/media/math/render/svg/8cb7afced134ef75572e5314a5d278c2d644f438)] 和 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OeqD4us7-1632883389543)(https://wikimedia.org/api/rest_v1/media/math/render/svg/6b2c472d927e5b59281522a993493664cd3f4422)] 分别是 X 和 Y 的边缘概率密度函数。

上面的公式不够直观，可以进行如下的化简：
$KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲I(X;Y) &= \int_…$
直观上，互信息度量 X 和 Y 共享的信息：它度量知道这两个变量其中一个，对另一个不确定度减少的程度。例如，如果 X 和 Y 相互独立，则知道 X 不对 Y 提供任何信息，反之亦然，所以它们的互信息为零。在另一个极端，如果 X 是 Y 的一个确定性函数，且 Y 也是 X 的一个确定性函数，那么传递的所有信息被 X 和 Y 共享：知道 X 决定 Y 的值，反之亦然。因此，在此情形互信息与 Y（或 X）单独包含的不确定度相同，称作 Y（或 X）的熵。而且，这个互信息与 X 的熵和 Y 的熵相同。（这种情形的一个非常特殊的情况是当 X 和 Y 为相同随机变量时。）

3.流程

论文主要通过3步

最低0.47元/天解锁文章

一个好梦

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
用于提升多样性的Maximum Mutual Information算法

MMI：Maximum Mutual Information1. 背景在传统的seq2seq领域，多样性问题一直是个令人困扰的问题，一个典型的例子就是bot领域，在回答的时候容易生成一些非常safe，grammatical的reply，比如“呵呵”，“I don’t know”之类，这些回答可以顺应人们的问题，但是基本没有太多实际的意义，试想，谁会使用一个问啥都说不知道的bot呢。针对这个问题，有很多相关的研究，比如模型派倾向于通过复杂精妙的模型来提升diversity，也
复制链接

扫一扫