关于交叉熵的个人理解

在信息论和机器学习中,常常会聊到交叉熵这个概念,用这个专有名词来计算预测结果与实际结果的差距,简单地说就是判断学习的好与坏。

那为了方便大家更加比较抽象地理解什么是交叉熵,我们先来聊一下什么是熵。

一:熵

        熵,简而言之就是信息量。

       举个栗子:

       罗大黑同志,每天早上的早饭都是螺蛳粉,一年下来天天如此。然后,今天,我又看见罗大黑同志早餐去吃螺蛳粉,所以我见怪不怪,似乎习以为常,我们把这种情况定义为:信息量很小。即:没有什么悬念。

        现在考虑另一种情况,假设我今天看见罗大黑早饭去吃手抓饼。我一脸懵,满脑子在跑火车地琢磨:他今天怎么吃手抓饼了?难道螺蛳粉那家店搬走了?难道他失恋了?难道起床晚了没有螺蛳粉了?难道他交了个北方女朋友?.......如此等等,整个结果完全不符合常规,意料之外,我们把这种情况定义为:信息量很大。即:似乎不太可能发生。

        于是乎,熵=信息量。所谓的熵指的就是信息量,越有可能发生的事情,信息量越小,熵值越小,越不可能发生的事情,信息量越大,熵值越大。但是其实,本质上熵是信息量的期望,他的大小跟信息量的大小一定程度上成正相关,所以可以这么去理解它。

 

                                       

然后,有人问我,为啥子很多概率上东西会用到log,还经常取负值?

 

OK,参考了各方讨论之后,我来聊一聊个人理解。

 

假如,我们要做这么一个报表:所有人2018年的总收入的趋势图,然后找出相对工资比较高的人

那可能会是这样:

小明:10W, 小黑:20W,小李:12W,小六:15W,大顺:9W,恒哥:10W

于是乎,折线图长这样:

看起来还算是比较平,比较稳的,小黑和小六算是相对比较高的。我们接着统计,统计到了马云和比尔盖茨,发现他们的收入:

马云:100亿,比尔盖茨:150亿

结果,折线图长这样了

看到这里,各位有什么想法?有钱人真是可恨,把我的折线图都掰直了。。。

在第一个图中,小黑和小六相对而言算是工资比较高了,结果到了第二个图。。。就杯具了。。。

你们说,切20W算什么高工资,那这样,我们再假设一下,假设:

小黑:1亿,小六:2亿,够多了吧

则,折线图长这样:

即使小黑和小六都1个亿了,在整个统计的图中,只是鼓了一个包,真可怜

于是,我们换种方式统计,我们取对年收入取log10,则数据就变成这样了

 

这样,是不是一眼就看出了,孰高孰低了。

所以呢,一般情况下,对基础数据(或者叫原始数据)取log2或者log10,只是对数据进行一个标准化、规范化的过程,防止原始数据的波动造成特征的波动,即:防止造成熵值的不必要波动。

 

那,取负值又是为什么?

因为熵值的计算公式中,是对概率取log,而概率是恒小于1的,以0-1为真数的对数,其值是恒小于0的。为了方便观察和计算,我们对最终值取反,则,负的就变成正的了。这么做只是为了方便观察,因为:1+3很容易想到是4,但是-1+(-3)可能就会让你郁闷两秒钟了- - 是不是。

 

二、接着聊相对熵和交叉熵

上面的折线图,假设我们认为:小黑、小六、马云和比尔盖茨是高工资的有钱人,其余的不算是有钱人(暂且定义为穷人)。

但是呢,在经过了一堆的算法过后,机器预测的是:只有小六、马云和比尔盖茨。小黑不算。就差那么“一个亿”的小目标,机器就把小黑归为穷人了。。。于是呢,我们定义的有钱人和穷人的标准,跟机器定义的有钱人和穷人的标准,就有了一个小黑的gap,这个gap就是广义上的相对熵,即:预测值跟实际值的差距。如下是相对熵的数学定义。

                                                         

接着,一群非常厉害的数学家,对这个公式推来推出,发现可以写成如下:

                                        

哇,厉害厉害,于是就发现,第一个家数,是恒定不变的,所以!!!所以!!!

就把后面的部分:

                                                

定义为:

                                          交叉熵

                                          交叉熵

                                          交叉熵

重要的事说三遍!!!

 

来。总结一下,交叉熵就是:

判断预测结果和实际结果的一种度量方法。

所以呢,不是为了面试这种场合,大家理解一下就行了,算法不可刨底,刨着刨着就

                                                             

引自:(1)https://blog.csdn.net/tsyccnh/article/details/79163834

           (2)还有公式的引用博客,怎么都找不到了- - ,下次找到一定补上- -

             (3)   https://www.zhihu.com/question/41252833

  • 17
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值