交叉熵和损失函数

最新推荐文章于 2024-05-13 20:32:49 发布

Ychan_cc

最新推荐文章于 2024-05-13 20:32:49 发布

阅读量7.3k

点赞数 2

分类专栏：机器学习文章标签：交叉熵与损失函数

本文链接：https://blog.csdn.net/Ychan_cc/article/details/77992912

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

熵，交叉熵和损失函数，在机器学习中，这些概念容易让人迷糊，基于现有的理解，简要做一下总结供参考，以后理解深刻了，在进行拓展。

熵

熵作为一种测量信息量的一个度量，可以用意外程度的期望值来定义，其反应了系统的有序化程度。
假设一个事件发生的概率为p，则得知该消息的意外程度 $log_{2} (\dfrac{1}{p})$
这个事件发生的概率越大，意外程度越小，包含的信息也越小。若一件事必然发生，概率为1，则意外程度为0，信息量为0.

假设对于一个不均匀的色子，其离散随机变量X可能取值 $X=\{x_1,x_2,..., x_6\}$ ，每个取值发生的概率 $p(X=x_i)$ ,记为 $p_i$ ， $p_i$ 可称为意外程度，意外程度是一个随机变量，那么意外程度随机变量的期望值定义为：

H = - \sum i = 1 n p (x i) l o g p (x i) = \sum i 6 p i * (得 知 该 点 数 的 是 意 外 程 度) = \sum i 6 p i * l o g (1 / p i)

$H = - \sum_{i=1}^n p(x_i) log p(x_i) = \sum_i^6 p_i *(得知该点数的是意外程度) = \sum_i^6 p_i * log(1/p_i)$
期望值H即是熵，或称香浓信息量，值越大，不确定度越大。
对于只有两种结果的一个事件，比如投不均匀的硬币，正面朝上为p，则熵可得：

H = - p l o g (1 - p) - (1 - p) l o g (p)

$H = - p log(1-p) - (1-p)log(p)$
对H求导，当p=1/2时，熵H最大，无序度越大，不确定度越大，整个集合包含的信息量也越大。

在用比特来度量时：
若投硬币正面朝上,p=1/2，则log(2)=1,只需1bit就可表示两种结果
若投色子点数为1, p=1/6，则log(6)=2.6,只需2.6bit就可表示六种结果。
换种角度来理解，给定一个分布p(x), 随机变量x来自p的分布，其可以用-log(p(x)) bit来编码。
则对于x这个随机变量来自p的所有取值，需要的编码bit数目为

H (p) = E x \sim p [- l o g (p (x))] = - \sum x p (x) l o g (p (x))

$H(p) = E_{x\sim p}[-log(p(x))] = -\sum_x p(x)log(p(x))$
然而如果这个随机变量x取自一个分布q，但其实际上属于p分布, 则实际需要的编码bit数目为

H (p) = E x \sim p [- l o g (q (x))] = - \sum x p (x) l o g (q (x))

$H(p ) = E_{x\sim p}[-log(q(x))] = -\sum_x p(x)log(q(x))$

交叉熵

针对同一个事件，分别用两个概率分布p（代表真实概率）和q（代表模型概率）来度量信息量。交叉熵定义为：

H (p, q) = E p [1 / l o g (q)] = - \sum x p (x) l o g (q (x)) = H (p) + D K L (p | | q)

$H(p,q) = E_p [1/log(q)] = -\sum_x p(x)log(q(x)) = H(p)+D_{KL} (p||q)$
其可用来度量p(假定为给定标签)， q(假定为预测值)的相似程度，
H(p)值固定时，此时H(p,q)等价于

DKL(p||q) $D_{KL} (p||q)$

D K L (p | | q) = \sum i [p l o g (p q)]

$D_{KL} (p||q) = \sum_i [p log(\frac p q)]$
表示用q来逼近p时信息的损失程度（可以理解为距离，但并不是真正的距离

D(p||q)≠D(q||p) $D(p||q) \not = D(q||p)$ ）, q=0时， p必须为0， p=q时，损失最小

损失函数

交叉熵在机器学习中，一般用来定义损失函数，当这个事件只有两种结果p={y,1-y}, $q={\dot y,1-\dot y}$ ,交叉熵：

H (p, q) = - s u m 1 i p i l o g (q i) = - y l o g (y ˙)) - (1 - y) l o g (1 - y ˙)

$H(p,q) = -sum_i^1 p_i log(q_i) = -y log(\dot y)) - (1-y) log(1-\dot y)$
则对应于logistic regression的损失函数（计算所有样本 m个的交叉熵平均值）为：

H (p, q) = - 1 m \sum i = 1 m \sum j = 0 1 H (p j, q j) = - 1 m \sum i m [y i l o g (y ˙ i) + (1 - y i) l o g (1 - y ˙ i)] = 1 m ⎡ ⎣ \sum i = 1 m \sum (j = 1) 1 l o g [p i = j | x i; θ] ⎤ ⎦

$H(p,q) = - \frac{1}{m} \sum_{i=1}^m \sum_{j=0}^1 H(p_j, q_j) = - \frac{1}{m} \sum_i^m [y_i log(\dot y_i) + (1-y_i) log(1-\dot y_i)] = \frac 1 m \left[\sum_{i=1}^m \sum_(j=1)^1 log[p_i=j|x_i; \theta] \right]$
其中，

y˙i=p(yi=j|xi;θ)=h(xi;θ) $\dot y_i = p(y_i = j |x_i;\theta) = h(x_i;\theta)$ ,代表一个样本输出概率值
交叉熵为正数>0, 当实际输出

y˙i $\dot y_i$ 靠近期望的输出

yi $y_i$ 时，交叉熵靠近0.
将其拓展到softmax损失函数的定义为：

J (θ) = - 1 m \sum i = 1 m \sum j = 1 k 1 {y i = j} l o g e θ T j x i \sum k l = 1 e θ T l x i + λ 2 \sum i = 1 k \sum j = 0 n θ i j = - 1 m \sum i = 1 m \sum j = 1 k 1 {y i = j} l o g [p (y i = j) | x i; θ] + λ 2 \sum i = 1 k \sum j = 0 n θ i j

$J(\theta) = -\frac 1 m \sum_{i=1}^m \sum_{j=1}^k 1\{y_i = j\} log \frac {e^{\theta_j^T x_i}} {\sum_{l=1}^k e^{\theta_l^T x_i}} + \frac \lambda 2 \sum_{i=1}^k \sum_{j=0}^n \theta_{ij} = -\frac 1 m \sum_{i=1}^m \sum_{j=1}^k 1\{y_i = j\} log[p(y_i = j)|x_i;\theta] + \frac \lambda 2 \sum_{i=1}^k \sum_{j=0}^n \theta_{ij}$

\nabla θ j J (θ) = - 1 m \sum i = 1 m [x i (1 {y i = j}) - p (y i = j | x i; θ)] + λ θ j

$\nabla_{\theta_j} J(\theta) = - \frac 1 m \sum_{i=1}^m [x_i (1\{y_i = j \})-p(y_i = j|x_i;\theta)]+\lambda \theta_j$
交叉熵代价函数的引入，主要是为了弥补二次代价函数的不足，二次代价函数权值和偏置更新需要乘以激活函数的偏导项，而sigmoid函数很容易饱和，饱和时，其偏导数趋向于0,从而导致权值和偏置更新缓慢甚至不跟新，交叉函数其梯度中没有了偏导数，其权值更新速度会更快。

Ychan_cc

关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
交叉熵和损失函数

熵，交叉熵和损失函数，在机器学习中，这些概念容易让人迷糊，基于现有的理解，简要做一下总结供参考，以后理解深刻了，在进行拓展。对公式直接截图粘贴试了几次不能显示。难道需要一张张图上传？后面有时间再来解决，有好方法忘及时告知。熵熵作为一种测量信息量的一个度量，可以用意外程度的期望值来定义，其反应了系统的有序化程度。假设一个事件发生的概率为p，则得知该消息的意外程度log2(12) log_{2
复制链接

扫一扫