20211017
互信息是相对熵的更宽泛的特殊情形, 通常将互信息最大化就是将两个随
机事件的相关性最大化, 在机器学习中, 理想情况下, 互信息最大, 就相当于
模型训练过后拟合出来的概率分布已经等同于真实的概率分布。
20210614
H(x):先验概率
H(x |y):后验概率
考察x ,y之间的依赖关系
如果二者独立 这 式子的结果为0 y的发生对x的发生没有影响 H(x)-H(x)=0
如果 影响很大,H(x|y) 因为y的加入 是的 x的不确定性减小 使得 H(x)-H(x|y) 的值增大
H(x) 熵表示事物不确定性的程度 越确定 值越小
1.信息量
2.熵是信息量的期望
3.散度两个分布越接近 散度值越小 右边的每一项都接近于1
4.单标签 多分类 一张图片同时只能是一种判别的可能
5.多标签 多分类 一张图片同时可以是多种判别的可能
6.上面四五点 二者的公式是不一样的
https://www.zhihu.com/question/65288314/answer/244557337
https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence
https://jamesmccaffrey.wordpress.com/2013/11/05/why-you-should-use-cross-entropy-error-instead-of-classification-error-or-mean-squared-error-for-neural-network-classifier-training/
实际应用中 本质上是用的散度衡量两个分布的相似度,只是因为前部相同就只用了 后半部的交叉熵