信息论笔记

最新推荐文章于 2021-12-02 15:53:27 发布

casmaster

最新推荐文章于 2021-12-02 15:53:27 发布

阅读量261

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/casmaster/article/details/75008431

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

$\DeclareMathOperator*{\argmax}{arg\,max}$

与机器学习相关的信息论概念

基本概念

信息量(自信息)

I (p) = - l o g b (p)

$I(p)=-log_{b}(p)$
当b=2,熵的单位是bit;b=e,熵的单位是nat;b=10,熵的单位是hart

p=1,I(p)=0 $p=1,I(p)=0$

p→0,I(p)→∞ $p\to0 , I(p)\to\infty$

p=1/2,I(p)=1 $p=1/2, I(p) = 1$

熵

H (X) = E X [I (X)] = E X [- l o g b (X)]

$H(X)=E_{X}[I(X)]=E_{X}[-log_{b}(X)]$
个人理解:X可以是连续或者离散,反正就是积分

交叉熵

H (p, q) = E p [- l o g (q)] = H (p) + D k l (p | | q)

$H(p,q)=E_{p}[-log(q)]=H(p)+D_{kl}(p||q)$
第二步骤的推导:

E p [- l o g (q)] = E p [- l o g (p) + l o g (p) - l o g (q)] = E p [- l o g (p)] + E p l o g p q = H (p) + D K L (p | | q)

$E_{p}[-log(q)]=E_p[-log(p) + log(p) -log(q)] = E_p[-log(p)] +E_{p}log\frac{p}{q}=H(p)+ D_{KL}(p||q)$
如果p和q分布相同,那么交叉熵为0,

H(p,q)=H(p) $H(p,q)=H(p)$
不可交换

H (p, q) \neq H (q, p)

$H(p,q) \neq H(q,p)$

相对熵/KL距离/KL散度

D K L (p | | q) = E p l o g p q

$D_{KL}(p||q)=E_{p}log\frac{p}{q}$

交叉熵损失

对于0/1分类,加入label是 $p_1$ 概率,而不是0/1交叉熵损失,那么可以推导:

E p [- l o g (q)] = - p 0 l o g (q 0) - p 1 l o g (q 1)

$E_{p}[-log(q)] = -p_{0}log(q_0)-p_{1}log(q_1)$
同样可以推广到多元分布:

逻辑回归的优化

逻辑回归,可以很自然地通过极大似然估计来优化,推导如下
需要说明的是,注意,实验样本集合并不是二项实验,因为每次 ${X_i}$ 不同,所以对于每个样本,有一个自己的二项分布 ${P_i}$ .

y i \in {0, 1}

$y_i\in{\{0,1\}}$
每个样本的似然函数是:

P w (y i | X i) = σ w (X) y i [1 - σ w (X)] 1 - y i

$P_w(y_i|X_i)=\sigma_w(X)^{y_i} [1-\sigma_w(X)]^{1-y_i}$
注意,不能这样展开

P w (y i | X i) = y i σ w (X) + (1 - y i) [1 - σ w (X)] = y i σ w (X) + (1 - y i) σ w (- X)

$P_w(y_i|X_i)=y_i\sigma_w(X)+(1-y_i)[1-\sigma_w(X)]=y_i\sigma_w(X)+(1-y_i)\sigma_w(-X)$
训练样本集合的似然函数是:

L (w) = l o g [\prod i [P w (y i | X i)]] = \sum i l o g [P w (y i | X i)] = \sum i [y i l o g σ w (X i) + (1 - y i) l o g [σ w (- X i)]

$L(w)=log[\prod_i[P_w(y_i|X_i)]] = \sum_{i}log[P_w(y_i|X_i)] = \sum_{i}[y_{i}log\sigma_w(X_i)+(1-y_{i})log[\sigma_w(-X_i)]$
极大似然估计:

w M L = a r g m a x w L (w)

$w_{ML}=\argmax_{w}L(w)$

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
信息论笔记

与机器学习相关的信息论概念基本概念信息量(自信息)I(p)=−logb(p)I(p)=-log_{b}(p) 当b=2,熵的单位是bit;b=e,熵的单位是nat;b=10,熵的单位是hart p=1,I(p)=0p=1,I(p)=0 p→0,I(p)→∞p\to0 , I(p)\to\infty p=1/2,I(p)=1p=1/2, I(p) = 1 熵H(X)=EX[I(X)]=EX[−
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。