无监督表示学习随着深度学习的迅猛发展,近年来呈现出百花齐放之态。19年ICLR会议中收录的Learning Deep Representations by Mutual Information Estimation and Maximization这篇Bengio组大作,从互信息的视角给出了一种新的思路。
关于Deep InfoMax(DIM)的解读已有珠玉在前, 只是多数分析的博客更关注本文的理论推导,而在这篇文章的实现上,仅凭理论上的指引,我无法复原出loss function的细节,于是在github搜了本文的源码。原作者的源码封装较好,略略一读有些头大,于是我转而研读另一版的pytorch代码,初步明确了DIM的loss function一种实现方式。
原文中,DIM的优化目标是:
根据论文可知,上式中的字母含义分别为:
-
:表示用于提取输入图像特征的编码器Encoder。
-
:输入的原始图像。
-
:调节各部分占比的超参数。
-
:Mutual Information(MI) estimator,互信息估计器。
-
:全局和局部目标的判别器模型的参数。
-
:看论文示意图中M x M的feature map可知,就是低层特征的数量。
-
:第i个低层特征(共个)。
-
:仿照adversarial autoencoders(AAE)设计的Di