理解机器学习的交叉熵为何用来表示损失函数

最新推荐文章于 2024-07-17 21:04:45 发布

稚行

最新推荐文章于 2024-07-17 21:04:45 发布

阅读量183

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/qq_45130467/article/details/120222206

版权

前言

最近上课学习了交叉熵:

$H(p,q)=-\sum_{i=1}^{n}p(x_{i})log(q(x_{i}))$

但是很不理解为什么要对概率进行-log处理，凭直观的感受1-x也能衡量误差，于是通过学习交叉熵的定义由来，进一步理解

一、损失函数

损失函数能量化所学模型的好坏，损失越少，即离真实模型越近，该模型越好。

在多分类问题中，例如其中一个标签向量为p=(1,0,0,0),一个实际输出向量为q=(0.6,0.1,0.1,0.2）两者做内积结果为0.6。从最直观的感受来说，只要用1-0.6作为损失值（该值越小即0.6越逼近1，越能得到正确的分类）不就已经可以量化一个模型的好坏吗。抱着这个问题，我去学习了KL散度公式的建立（毕竟交叉熵是由KL散度公式所推得）

二、KL散度（相对熵）

在信息论中，KL散度即D(P||Q) 表示用概率分布Q来拟合真实分布P时，产生的信息损耗，其中P表示真实分布，Q表示P的拟合分布，既然是信息损耗，那就应该是用概率分布Q拟合真实分布P的信息量减去概率分布p的信息量，对应公式如下：

$D(p||q)=-\sum_{i=1}^{n}p(x_{i})log(q(x_{i}))-(-\sum_{i=1}^{n}p(x_{i})log(p(x_{i})))$

$D(p||q)=\sum_{i=1}^{n}p(x_{i})\frac{log(p(x_{i}))}{log(q(x_{i}))}$

变形可得：

$D(p||q)=-H(p(x_{i}))-\sum_{i=1}^{n}p(x_{i})log(q(x_{i}))$

由于 $-H(p(x_{i}))$ 在但多分类问题中为0，交叉熵等价于KL散度，而KL散度的实际含义：用来描述两个概率分布P和Q的差异的一种方法，与损失函数含义相符，损失函数选择交叉熵肯定没问题。可是还是没解决当初的问题为什么不直接 $1-p(x_{i})q(x_{i})$ ，接下来还是从概念出发，追溯本质为什么一个概率分布的信息量要用log定义。

三、信息论

交叉熵是信息论中的一个概念，要想了解交叉熵的本质，需要先从最基本的概念讲起

1.信息量

对于三个问题的证明等价于证明f(xy)=f(x)+f(y),x∈(0,1],f(1)=0的情况下f(x)=-log(x),具体证明参考下文。

(6条消息) 信息量为什么要表示成对数的形式_Netfilter,iptables/OpenVPN/TCP guard:-(-CSDN博客_信息量为什么取对数https://blog.csdn.net/dog250/article/details/79081043?utm_medium=distribute.pc_relevant.none-task-blog-2~default~BlogCommendFromBaidu~default-18.no_search_link&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2~default~BlogCommendFromBaidu~default-18.no_search_link

2 熵

我们现在有了信息量的定义，而熵用来表示所有信息量的期望，即：

那么为什么当初相对熵(KL散度)的定义不是这样呢：

$\large D(p||q)=-\sum_{i=1}^{n}q(x_{i})log(q(x_{i}))-(-\sum_{i=1}^{n}p(x_{i})log(p(x_{i})))$

这个很好理解，我们在机器学习实验中每次改变的就是输出数据即q(xi)，我们要探究的就是期望概率密度函数不变的情况，改变随机变量取值对于概率分布(信息量）的影响。

总结

算是对于交叉熵的由来有了更深层次的理解，对于损失函数为什么不用 $1-p(x_{i})q(x_{i})$ 我的总结是，不符合实际含义，不像交叉熵那么具有可解释性，同时log函数在实际情况定量表示信息量的表现也十分不错。对于信息量为什么用log的推导也十分有意思，不禁感叹数学的强大！

稚行

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
理解机器学习的交叉熵为何用来表示损失函数

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤 1.引入库 2.读入数据总结前言最近上课学习了交叉熵H(x)=−∑x∈XP(x)log(x)，但是很不理解为什么要对概率进行log(x)处理，凭直观的感受(1-x)提示：以下是本篇文章正文内容，下面案例可供参考一、损失函数是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤
复制链接

扫一扫