原标题:KL散度,PSI,IV值之间的故事
KL散度,PSI,IV值之间的故事
01
KL散度
KL散度也称KL距离或相对熵。是一个从信息论、熵的角度量化距离的量,但跟一般的距离有不一样的地方。
距离在数学上的定义需满足以下条件:
非负性
同一性
对称性
直递性
KL散度只满足前面两条性质,不是真正意义上的距离,只能
用来评价两分布的差异。第一条的意思是说KL散度>=0,第二条说p与p的KL散度为0,即两个同一分布KL散度为0。但KL散度不满足对称性,即KL(p,q)不等于KL (q,p)。KL散度还用于衡量信息增益,衡量修改了从先验分布q到后验分布p的信息之后带来的信息增益,所以不具有对称性。如果要求对称的KL,例如p,q的对称KL,可以求KL(p,q)和KL(q,p)的平均值。
先看KL散度的公式:
假设有两个分布A和分布B,出现0,1的概率为:
A(0)=3/4,A(1)=1/4
B(0)=1/6,B(1)=5/6
我们就可以计算A和B之间的KL散度为:
=3/4*log((3/4)/(1/6))+1/4*log((1/4)/(5/6))
KL散度的python计算代