深度学习你必须知道的几个信息理论概念

最新推荐文章于 2024-03-13 11:02:46 发布

人工智能小雨老师

最新推荐文章于 2024-03-13 11:02:46 发布

阅读量746

点赞数

分类专栏：人工智能深度学习文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42596342/article/details/94575687

版权

人工智能同时被 2 个专栏收录

48 篇文章 5 订阅

订阅专栏

43 篇文章 2 订阅

订阅专栏

关于深度学习你必须知道的几个信息理论概念

信息论是一个重要的领域，它对深度学习和人工智能作出了重大贡献，但很多人对它却并不了解。信息论可以看作是微积分、概率论和统计学这些深度学习基本组成部分的复杂融合。人工智能中的很多概念来自信息论或相关领域：

常用的交叉熵损失函数
根据最大信息增益构建决策树
广泛应用于NLP和语音领域的维特比算法
广泛用于机器翻译RNN和各种其他类型模型的编码器-解码器概念

熵

也可以称为信息熵或香农熵。

关于深度学习你必须知道的几个信息理论概念

熵是实验中随机性或不确定性的度量

熵给出了实验中不确定性的度量。让我们考虑两个实验：

抛出一枚无偏硬币（P(H)= 0.5）并观察它的输出，假设H
抛出一枚有偏硬币（P(H)= 0.99）并观察其输出，假设H

如果我们比较两个实验，与实验1相比，实验2更容易预测结果。因此，我们可以说实验1本质上比实验2更不确定或不可预测。实验中的这种不确定性是使用熵度量的。

因此，如果实验中存在更多固有的不确定性，那么它的熵更大。或者说实验越不可预测熵越大。实验的概率分布用于计算熵。

一个完全可预测的确定性实验，即投掷P（H）= 1的硬币的熵为零。一个完全随机的实验，比如滚动无偏骰子，是最不可预测的，具有最大的不确定性，在这些实验中熵最大。

关于深度学习你必须知道的几个信息理论概念

抛掷一枚无偏硬币的实验比抛掷有偏硬币具有更多的熵

另一种观察熵的方法是我们观察随机实验结果时获得的平均信息。将实验结果获得的信息定义为该结果发生概率的函数。结果越罕见，从观察中获得的信息就越多。

例如，在确定性实验中，我们总是知道结果，因此通过观察结果没有获得新信息，因此熵为零。

数学定义

对于离散随机变量X，可能的结果（状态）x_1，...，x_n，熵（以位为单位）定义为：

关于深度学习你必须知道的几个信息理论概念

其中p(x_i)是X的第i个结果的概率。

应用

熵用于自动决策树构造。在树构建的每个步骤中，使用熵标准来完成特征选择。
基于最大熵原理选择模型，从对比的模型中选出熵最大的模型为最佳模型。

交叉熵

交叉熵用于比较两个概率分布。它告诉我们两个分布有多相似。

数学定义

在相同的结果集上定义的两个概率分布p和q之间的交叉熵由下式给出：

关于深度学习你必须知道的几个信息理论概念

应用

关于深度学习你必须知道的几个信息理论概念

基于卷积神经网络的分类器通常使用softmax层作为最后一层，并使用交叉熵损失函数进行训练

交叉熵损失函数广泛用于逻辑回归等分类模型，随着预测偏离真实输出，交叉熵损失函数会增大。
在诸如卷积神经网络的深度学习架构中，最终输出的softmax层经常使用交叉熵作为损失函数。

交互信息

交互信息是两种概率分布或随机变量之间相互依赖性的度量。它告诉我们另一个变量有多少关于该变量的信息。

交互信息获取随机变量之间的依赖性，比一般的相关系数更具广义性，后者只表现线性关系。

数学定义

两个离散随机变量X和Y的交互信息定义为：

关于深度学习你必须知道的几个信息理论概念

其中p(x,y)是X和Y的联合概率分布，p(x)和p(y)分别是X和Y的边缘概率分布。

应用

关于深度学习你必须知道的几个信息理论概念

在贝叶斯网络中，可以使用交互信息来确定变量之间的关系结构

特征选择：使用交互信息，而不是使用相关性。相关性仅表现线性依赖性而忽略非线性依赖性，但交互信息不会。零的交互独立性保证随机变量是独立的，但零相关不是。
在贝叶斯网络中，交互信息用于学习随机变量之间的关系结构，并定义这些关系的强度。

Kullback Leibler（KL）散度

也称为相对熵。

关于深度学习你必须知道的几个信息理论概念

KL散度用于比较两个概率分布

KL散度是另一种表示两个概率分布之间相似性的方法。它衡量一个分布与另一个分布的差异。

假设我们有一些数据，它的真实分布是P。但是我们不知道P，所以我们选择一个新的分布Q来近似这个数据。由于Q只是一个近似值，它无法像P那样准确地逼近数据，会造成一些信息的丢失。这个信息损失由KL散度给出。

P和Q之间的KL散度告诉我们，当我们试图用P和Q来近似数据时，我们损失了多少信息。

数学定义

一个概率分布Q与另一个概率分布P的KL散度定义为：

关于深度学习你必须知道的几个信息理论概念

应用

KL散度通常用于无监督机器学习技术中的变分自编码器。

信息论最初是由数学家和电气工程师克劳德·香农，在1948年的开创性论文“通信的数学理论”中提出的。

注意：随机变量和AI，机器学习，深度学习，数据科学等专业术语已被广泛使用，但在不同的领域中会有不同的物理含义。

今日资源推荐：

咕泡学院《仿生学神经网络人工智能高薪九二也实战课》课程

以深度神经网络为代表的“深度学习”系统正开始逐渐地接手人工智能的各种任务，从YOLO多物体追踪、图像识别、图像分割、图像补全、语音唤醒、聊天机器人等。因此，在许多先进的学术环境中，深度学习的专业知识正迅速从深奥的需要转变为强制性的先决条件，并在工业就业市场上具有很大优势。

在本课程中，我们将学习深层神经网络的基础知识，以及它们在各种人工智能任务中的应用。在课程结束时，学生应该对该学科有一定的了解，并能够将深度学习应用到各种任务中。

人工智能小雨老师

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

人工智能小雨老师 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。