互信息估计器
信息量: X= x 的信息量
熵: 代表信息量总和,是信息量的期望值,不确定性的度量。所以熵越大随机变量的取值范围越难确定,系统越不稳定。
交叉熵: P(x) 是目标分布,p,q的交叉熵可看成,使用分布q(x)表示p(x)的困难程度。
条件熵: H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。
相对熵(KL散度): 同一个随机变量的两个不同分布的距离。p(x),q(x) X的两个概率分布。实际应用中,p(x)是目标的真实分布,q(x)是预测得来的分布,为了两分布尽可能的相同,则最小化KL散度。
JS散度: 用来表示两个概率分布之间的差异,克服KL散度不对称。
互信息: 实际上是相对熵更广泛的情况,若变量不是独立的,可以通过考察联合概率分布和边缘概率分布乘积之间的KL散度来判断它们是否“接近”于相互独立。
互信息估计器: ???要估计MI,也即估计联合分布和边缘分布乘积的KL散度,一般的方法是使用KL散度的对偶形式。???
论文:MINE: Mutual Information Neural Estimator
链接: 香浓信息量,信息熵,交叉熵,相对熵(KL散度),JS散度,条件熵,信息增益,互信息.
链接: 一文搞懂交叉熵损失.
链接: 通俗理解条件熵.
基于神经网络的互信息估计器
https://zhuanlan.zhihu.com/p/191155238