两篇和互信息相关的论文
互信息(MI)在表征学习中广泛被用到,但由于其intractable的性质,很多方法只是将其一个下界作为优化的目标。本文简单阐述了两篇文章,其中一篇将如今的词表示学习方法统一到MI的视角下,另一篇首次提出了近似MI的导数而非直接近似MI来得到更好的近似效果。
A Mutual Information Maximization Perspective of Language Representation Learning
作者指出如今SOTA的词表示学习的方法在优化的目标函数其实是一个词序列的不同部分的互信息(MI)的下界。互信息是度量两个随机变量之间依赖程度的标准。给定两个随机变量A和B,它可以被理解为对于A的知识可以多大程度上减少B的不确定性,反之亦然。
其一个典型的下界为InfoNCE,这类方法是众所周知的contrast learning。