以前没有从另一个角度理解过熵:用最小的bit位数描述一个分布,这个bit数就是熵
交叉熵就是用分布Q(x)拟合真实分布P(x),最常见的就是LR的Loss
相对熵就是交叉熵减去真实分布的熵
KL散度就是相对熵,但是KL散度不具有对称性
JS散度是 JSD(P||Q)=1/2*KL(P||(P+Q)/2) + 1/2*KL(Q||(P+Q)/2)
可见JS散度是具有对称性的
KL散度和JS散度都是度量两个分布之间的距离的
KL散度大于等于0
这个和交叉熵大于真实熵是一致的,交叉熵等于真实熵的时候,P(x)=Q(x)