信息论主要概念的理解

最新推荐文章于 2024-05-13 20:32:49 发布

飞-舟

最新推荐文章于 2024-05-13 20:32:49 发布

阅读量994

点赞数 1

分类专栏：机器学习

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

目录(?)[-]

什么是信息量?
什么是熵，什么是信息编码所需位数，什么是最小编码位数？
什么是交叉熵？什么是相对熵（KL散度）？
什么是互信息和条件熵？
交叉熵损失函数及其求导

1. 信息量的定义：-log(p(x))，信息量与概率成反比。通俗讲，小概率事件包含的信息量大。

2. 熵的义：H(p)=Eplog1p(x)=−∑x∈Xp(x)logp(x), 熵的期望，在p(x)分布下，表达信息所需的最小编码位数。

3. 交叉熵的定义：CEH(p,q)=Ep[−logq]=−∑x∈Xp(x)logq(x)，通俗讲，p(x)分布下，以q表达信息所需编码位数。

顺便说，KL散度=相对熵= DKL(p||q)=Ep[logp(x)q(x)]=∑x∈Xp(x)logp(x)q(x) =∑x∈X[p(x)logp(x)−p(x)logq(x)]

即，DKL (p||q) = CEH(p,q) - H(p),KL散度与交叉熵变化趋势相同。

4. 互信息I(X,Y),

条件熵H(X|Y) H(Y|X)，由条件概率导出的熵：

5. 交叉熵loss function （以下以Logistic回归的交叉熵为例，对Softmax回归的交叉熵类似）

交叉熵的公式：

J (θ) = - 1 m \sum i = 1 m y (i) log (h θ (x (i))) + (1 - y (i)) log (1 - h θ (x (i))),

以及

J(θ)对参数

θ 的偏导数（用于诸如梯度下降法等优化算法的参数更新），如下：

\partial \partial θ j J (θ) = 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j

以上公式推导过程如下

交叉熵损失函数

我们一共有m组已知样本， (x(i),y(i)) 表示第 i 组数据及其对应的类别标记。其中 x(i)=(1,x(i)1,x(i)2,...,x(i)p)T 为p+1维向量（考虑偏置项）， y(i) 则为表示类别的一个数：

logistic回归（是非问题）中， y(i) 取0或者1；
softmax回归（多分类问题）中， y(i) 取1,2…k中的一个表示类别标号的一个数（假设共有k类）。

这里，只讨论logistic回归，输入样本数据 x(i)=(1,x(i)1,x(i)2,...,x(i)p)T ，模型的参数为 θ=(θ0,θ1,θ2,...,θp)T ,因此有

θ T x (i) : = θ 0 + θ 1 x (i) 1 + \dots + θ p x (i) p .

假设函数（hypothesis function）定义为：

h θ (x (i)) = 1 1 + e - θ T x ( i )

.
因为Logistic回归问题就是0/1的二分类问题，可以有

P (y^(i) = 1 | x (i); θ) = h θ (x (i))

P (y^(i) = 0 | x (i); θ) = 1 - h θ (x (i))

现在，我们不考虑“熵”的概念，根据下面的说明，从简单直观角度理解，就可以得到我们想要的损失函数：我们将概率取对数，其单调性不变，有

log P (y^(i) = 1 | x (i); θ) = log h θ (x (i)) = log 1 1 + e - θ T x ( i ),

log P (y^(i) = 0 | x (i); θ) = log (1 - h θ (x (i))) = log e - θ T x ( i ) 1 + e - θ T x ( i ) .

那么对于第

i 组样本，假设函数表征正确的组合对数概率为：

I{y(i)=1}logP(y^(i)=1|x(i);θ)+I{y(i)=0}logP(y^(i)=0|x(i);θ)=y(i)logP(y^(i)=1|x(i);θ)+(1−y(i))logP(y^(i)=0|x(i);θ)=y(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))

其中，

I{y(i)=1} 和

I{y(i)=0} 为示性函数（indicative function），简单理解为{ }内条件成立时，取1，否则取0，这里不赘言。
那么对于一共

m 组样本，我们就可以得到模型对于整体训练样本的表现能力：

\sum i = 1 m y (i) log (h θ (x (i))) + (1 - y (i)) log (1 - h θ (x (i)))

由以上表征正确的概率含义可知，我们希望其值越大，模型对数据的表达能力越好。而我们在参数更新或衡量模型优劣时是需要一个能充分反映模型表现误差的损失函数（Loss function）或者代价函数（Cost function）的，而且我们希望损失函数越小越好。由这两个矛盾，那么我们不妨领代价函数为上述组合对数概率的相反数：

J (θ) = - \sum i = 1 m y (i) log (h θ (x (i))) + (1 - y (i)) log (1 - h θ (x (i)))

上式即为大名鼎鼎的交叉熵损失函数。(说明：如果熟悉“ 信息熵 “的概念

E[−logpi]=−∑mi=1pilogpi ，那么可以有助理解叉熵损失函数）

交叉熵损失函数的求导

交叉熵损失函数：

J (θ) = - \sum i = 1 m y (i) log (h θ (x (i))) + (1 - y (i)) log (1 - h θ (x (i)))

其中，

log h θ (x (i)) = log 1 1 + e - θ T x ( i ) = - log (1 + e - θ T x (i)), log (1 - h θ (x (i))) = log (1 - 1 1 + e - θ T x ( i )) = log (e - θ T x ( i ) 1 + e - θ T x ( i )) = log (e - θ T x (i)) - log (1 + e - θ T x (i)) = - θ T x (i) - log (1 + e - θ T x (i)) ① ③ .

由此，得到

J (θ) = - 1 m \sum i = 1 m [- y (i) (log (1 + e - θ T x (i))) + (1 - y (i)) (- θ T x (i) - log (1 + e - θ T x (i)))] = - 1 m \sum i = 1 m [y (i) θ T x (i) - θ T x (i) - log (1 + e - θ T x (i))] = - 1 m \sum i = 1 m [y (i) θ T x (i) - log e θ T x (i) - log (1 + e - θ T x (i))] ③ = - 1 m \sum i = 1 m [y (i) θ T x (i) - (log e θ T x (i) + log (1 + e - θ T x (i)))] ② = - 1 m \sum i = 1 m [y (i) θ T x (i) - log (1 + e θ T x (i))]

这次再计算

J(θ) 对第

j 个参数分量

θj 求偏导:

\partial \partial θ j J (θ) = \partial \partial θ j (1 m \sum i = 1 m [log (1 + e θ T x (i)) - y (i) θ T x (i)]) = 1 m \sum i = 1 m [\partial \partial θ j log (1 + e θ T x (i)) - \partial \partial θ j (y (i) θ T x (i))] = 1 m \sum i = 1 m ⎛ ⎝ x ( i ) j e θ T x ( i ) 1 + e θ T x ( i ) - y (i) x (i) j ⎞ ⎠ = 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j

这就是交叉熵对参数的导数：

\partial \partial θ j J (θ) = 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j

转载请注明出处：http://blog.csdn.net/jasonzzj/article/details/52017438

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
信息论主要概念的理解

目录(?)[-]前言交叉熵损失函数交叉熵损失函数的求导前言交叉熵损失函数交叉熵损失函数的求导前言说明：本文只讨论Logistic回归的交叉熵，对Softmax回归的交叉熵类似。首先，我们二话不说，先放出交叉熵的公式： J(θ)=−1m∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i))),以
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。