与机器学习相关的信息论概念
基本概念
信息量(自信息)
I(p)=−logb(p)
当b=2,熵的单位是bit;b=e,熵的单位是nat;b=10,熵的单位是hart
p=1,I(p)=0
p→0,I(p)→∞
p=1/2,I(p)=1
熵
H(X)=EX[I(X)]=EX[−logb(X)]
个人理解:X可以是连续或者离散,反正就是积分
交叉熵
H(p,q)=Ep[−log(q)]=H(p)+Dkl(p||q)
第二步骤的推导:
Ep[−log(q)]=Ep[−log(p)+log(p)−log(q)]=Ep[−log(p)]+Eplogpq=H(p)+DKL(p||q)
如果p和q分布相同,那么交叉熵为0, H(p,q)=H(p)
不可交换
H(p,q)≠H(q,p)
相对熵/KL距离/KL散度
DKL(p||q)=Eplogpq
交叉熵损失
对于0/1分类,加入label是
p1
概率,而不是0/1交叉熵损失,那么可以推导:
Ep[−log(q)]=−p0log(q0)−p1log(q1)
同样可以推广到多元分布:
逻辑回归的优化
逻辑回归,可以很自然地通过极大似然估计来优化,推导如下
需要说明的是,注意,实验样本集合并不是二项实验,因为每次
Xi
不同,所以对于每个样本,有一个自己的二项分布
Pi
.
yi∈{0,1}
每个样本的似然函数是:
Pw(yi|Xi)=σw(X)yi[1−σw(X)]1−yi
注意,不能这样展开
Pw(yi|Xi)=yiσw(X)+(1−yi)[1−σw(X)]=yiσw(X)+(1−yi)σw(−X)
训练样本集合的似然函数是:
L(w)=log[∏i[Pw(yi|Xi)]]=∑ilog[Pw(yi|Xi)]=∑i[yilogσw(Xi)+(1−yi)log[σw(−Xi)]
极大似然估计:
wML=argmaxwL(w)