信息论笔记

与机器学习相关的信息论概念

基本概念

信息量(自信息)

I(p)=logb(p)

当b=2,熵的单位是bit;b=e,熵的单位是nat;b=10,熵的单位是hart
p=1,I(p)=0
p0,I(p)
p=1/2,I(p)=1

H(X)=EX[I(X)]=EX[logb(X)]

个人理解:X可以是连续或者离散,反正就是积分

交叉熵

H(p,q)=Ep[log(q)]=H(p)+Dkl(p||q)

第二步骤的推导:
Ep[log(q)]=Ep[log(p)+log(p)log(q)]=Ep[log(p)]+Eplogpq=H(p)+DKL(p||q)

如果p和q分布相同,那么交叉熵为0, H(p,q)=H(p)
不可交换
H(p,q)H(q,p)

相对熵/KL距离/KL散度

DKL(p||q)=Eplogpq

交叉熵损失

对于0/1分类,加入label是 p1 概率,而不是0/1交叉熵损失,那么可以推导:

Ep[log(q)]=p0log(q0)p1log(q1)

同样可以推广到多元分布:

逻辑回归的优化

逻辑回归,可以很自然地通过极大似然估计来优化,推导如下
需要说明的是,注意,实验样本集合并不是二项实验,因为每次 Xi 不同,所以对于每个样本,有一个自己的二项分布 Pi .

yi{0,1}

每个样本的似然函数是:
Pw(yi|Xi)=σw(X)yi[1σw(X)]1yi

注意,不能这样展开
Pw(yi|Xi)=yiσw(X)+(1yi)[1σw(X)]=yiσw(X)+(1yi)σw(X)

训练样本集合的似然函数是:
L(w)=log[i[Pw(yi|Xi)]]=ilog[Pw(yi|Xi)]=i[yilogσw(Xi)+(1yi)log[σw(Xi)]

极大似然估计:
wML=argmaxwL(w)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值