最近在学习Semi-supervised Domain Adaptation via Minimax Entropy (ICCV 2019),里面使用到了条件熵,不怎么了解,看来还是有必要总结一下。
熵. Entropy
在这里我们一般说的是信息熵,并不是热力学的那个熵,是由香农提出来的这个。因为那个时候都是2bit为单位,所以一般底数为2. 定义信息量为
为什么前面有个负号?现在是为了不小于0,所以说熵不小于0一开始就是从这里定义的了。我们把信息量理解成信息的不确定性,一个信息的不确定性越大,那么他的熵(信息量)也就越大。
显然,上面定义的信息量只是一个“点”。我们需要扩展到整个随机变量
求和就是离散型随机变量,积分就是连续型随机变量咯。