ML-0-熵、信息熵、互信息、KL散度

最新推荐文章于 2024-09-29 18:17:21 发布

WujiSixSix6

最新推荐文章于 2024-09-29 18:17:21 发布

阅读量105

点赞数 1

分类专栏：机器学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/qq_41969679/article/details/127268770

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

0. 熵(除本节外， $log\sim In$ )

0.1 信息熵

对于随机变量 $X$ , 信息熵：
$H(X)=-\sum^N_{i=1} p_ilog(p_i), \space P(X=x_i)=p_i.$

0.2 联合熵

对于随机变量 $X, Y$ , 联合熵
$H(X,Y)=-\sum_{x\in X}\sum_{y\in Y}p(x,y)logp(x,y)$

0.3 条件熵

也即引入 $Y$ 后对 $X$ 不确定性的影响。
$H (X ∣ Y) = H (X, Y) - H (Y)$

0.4 互信息

随机变量相关度
$I (X; Y) = H (X) - H (X ∣ Y)$

0.3 交叉熵

对于随机变量 $X$ , 分布 $p (x), q (x)$ :
$H(p,q)=-\sum_{x\in X}p(x)logq(x)$

0.4 KL散度(Kullback-Leibler Divergence)

$KL(p||q)=H(p,q)-H(p)\\ =-\sum_{x\in X}p(x)log\frac{q(x)}{p(x)}$

注意一般求熵底为2（ $log_2$ ）,单位为bit;若 $\log\sim In$ , 单位为nat.

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

WujiSixSix6

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

ML1 - 熵、信息、交叉熵、KL散度、log-likelihood、互信息

熊猫跳高的部落格

09-10

579

（截图来自英文维基）单一事件的熵：−p∗log(p)-p*log(p)−p∗log(p) 假设p=1/2，-log(p)=log(2)；假设q=1/1024，-log(q)=log(1024)；根据对数公式，有log(1024)/log(2)=10；这个运算可以理解为：构成10次抛硬币结果都为面这个事件的，是10个事件：第一次结果为面第二次结果为面 …… p是事件的概率，-log(p)是事件发生时的信息量，两者相乘得到事件的信息量。所以香农用对数表示信息。熵：H(p)=∑p−p∗log(

一文绝对让你完全弄懂信息熵、相对熵、交叉熵的意义《繁凡的深度学习笔记》第 3 章分类问题与信息论基础（中）（DL笔记整理系列）

繁凡さん的博客

02-10

2055

绝对通俗易懂！一文绝对让你完全弄懂信息熵、相对熵、交叉熵的意义，看不懂你来打我 ~

参与评论您还未登录，请先登录后发表或查看评论

信息熵的基本了解

Fo*(Bi)的博客

08-06

4983

熵 信息熵

一些信息熵的含义

热门推荐

一步一想代码那些事儿

03-16

2万+

一些信息熵的含义(1) 信息熵的定义：假设X是一个离散随即变量，即它的取值范围R={x1，x2...}是有限可数的。设pi=P{X=xi}，X的熵定义为： (a)若(a)式中，对数的底为2，则熵表示为H2(x)，此时以2为基底的熵单位是bits，即位。若某一项pi=0，则定义该项的pi

交叉熵、信息熵、KL散度、互信息与Information Bottleneck【信息瓶颈IB】之间的关系

qq_45249273的博客

10-27

4091

信息熵，相对熵（KL），交叉熵、互信息和信息瓶颈

[ML]熵、KL散度、信息增益、互信息-学习笔记

weixin_30670151的博客

05-10

105

[ML]熵、KL散度、信息增益、互信息-学习笔记 https://segmentfault.com/a/1190000000641079 转载于:https://www.cnblogs.com/zhangbojiangfeng/p/6836728.html

信息熵概念理解及ML相关应用

step by step

08-24

427

对于一个随机变量X，其信息熵可以表示为：为什么是这样，信息熵代表了什么含义？含义：熵代表信息（事件）的不确定度，代表确定知道一个事件发生需要消耗的能量。或者可以理解为：熵是服从某一特定概率分布事件的理论最小平均编码长度。涉及到编码相关概念，不能不提一下huffman编码，这里不重点讲，具体逻辑就是出现概率多的字符采用最短的编码方式。不确定度和事件发生的概率有明显的逻辑关系：概率越大，不确定度（熵）越小；概率越小，不确定度（熵）越大。即，不确定度函数f是概率p的。

【ML Method】熵、联合熵、条件熵、互信息、相对熵、交叉熵

roguesir的博客

07-07

1839

更新时间：2018-07-07 前言之前有写过一篇文章介绍信息增益、Gini、信息增益率的，上面介绍过熵及其相关概念，地址为：https://blog.csdn.net/roguesir/article/details/76619919。这篇文章从另外的角度详细介绍熵、联合熵、条件熵、互信息、相对熵、交叉熵、信息增益等信息，为后面介绍最大熵模型做铺垫。下面进行详细介绍：熵的概...

ML与Information：信息论(度量模型性能)在机器学习中的简介(信息熵(不确定度)、互信息(衡量相关性)、相对熵即KL散度(两个分布相似性))、主要内容、关系、常用方法、案例应用

近期请国内外头部出版社可尽快私信博主！——心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，谦虚，自律，反思，成长，还算是比较正能量的博主，公益免费传播……内心特别想在AI界做出一些可以推进历史进程影响力的东西(兴趣使然，有点小情怀，也有点使命感呀)…

10-29

1万+

ML与Information：信息论(度量模型性能)在机器学习中的简介(信息熵(不确定度)、互信息(衡量相关性)、相对熵即KL散度(两个分布相似性))、主要内容、关系、常用方法、案例应用目录信息论Information在机器学习中的简介、主要内容、关系、常用方法信息论Information在机器学习中的简介、主要内容、关系、常用方法信息论Information在机器学习中的概述：信息熵(不确定度)、互信息(衡量相关性)、相对熵即KL散度(两个分布相似性) 简介 机器学习（Ma

maxentropy：Python中的最大熵模型和最小散度模型.zip

06-27

散度是衡量两个概率分布差异的度量，常见的散度类型有KL散度、Jensen-Shannon散度等。在自然语言处理中，最小散度模型常用于词性标注、文本生成等任务，目的是使模型生成的文本尽可能接近真实文本的分布。在Python...

ML_math_machinelearning_

09-30

最后，信息论为机器学习提供了衡量和压缩信息的工具，比如熵、互信息、KL散度等，它们在特征选择、模型复杂度控制等方面有重要应用。通过阅读"ML_math.pdf"这份资料，我们可以深入理解这些数学概念如何与机器学习...

机器学习笔记 - week6 -（十一、机器学习系统的设计）

qq_24428851的博客

09-27

830

值，假设我们使用一种需要大量参数的学习算法，比如有很多特征的逻辑回归或线性回归，或者用带有许多隐藏单元的神经网络，那又是另外一种带有很多参数的学习算法，这些都是非常强大的学习算法，它们有很多参数，这些参数可以拟合非常复杂的函数，因此我要调用这些，我将把这些算法想象成低偏差算法，因为我们能够拟合非常复杂的函数，而且因为我们有非常强大的学习算法，这些学习算法能够拟合非常复杂的函数。于是他们把诸如这样的机器学习问题，当做一类监督学习问题，并尝试将其分类，什么样的词，在一个英文句子特定的位置，才是合适的。

李宏毅机器学习2022-HW8-Anomaly Detection

Tunny_one

09-27

649

李宏毅机器学习2022-HW8-Anomaly Detection

机器学习：探索未知边界，解锁智能潜力

2301_79181030的博客

09-28

917

在这个日新月异的科技时代，机器学习作为人工智能领域的核心驱动力，正以前所未有的速度改变着我们的世界。从智能家居的个性化推荐到自动驾驶汽车的精准导航，从医疗诊断的辅助分析到金融市场的风险预测，机器学习技术以其强大的数据处理能力和自我优化特性，不断拓宽着人类认知与应用的边界。未来，我们有望看到更加智能、高效、人性化的机器学习应用不断涌现，为人类社会带来更多的便利和福祉。通过对用户行为数据的深度挖掘和分析，金融机构能够更准确地评估贷款风险，及时发现潜在的欺诈行为，并为用户提供更加个性化的理财建议。

【机器学习】——决策树以及随机森林

酷酷的伟的博客

09-28

1146

决策树（Decision Tree）是一种基于树形结构的监督学习算法，广泛应用于分类和回归任务。它通过一系列的决策规则逐步将数据集划分成多个子集，从而构建出易于理解的决策模型。决策树不仅易于可视化、便于解释，还能够处理复杂的多变量决策问题，因此在各类机器学习模型中占有重要地位。

diffusion vs GAN

Kuekua的专栏

09-27

953

条件生成对抗网络（cGAN）是 Pix2pix 的基础架构。传统的 GAN（生成对抗网络）包括一个生成器（Generator）和一个判别器（Discriminator），生成器从噪声分布中生成假样本，判别器则尝试区分真假样本。cGAN 则在此基础上加入了条件信息，使得生成过程不仅依赖于噪声，还依赖于特定的条件输入，从而引导生成器生成符合条件的样本。

240929-CGAN条件生成对抗网络

weixin_66378701的博客

09-29

867

前面我们学习了GAN（）和DCGAN（），接下来继续来看CGAN（Conditional GAN）条件生成对抗网络。

机器学习框架

ML-0-熵、信息熵、互信息、KL散度

0. 熵(除本节外， l o g ∼ I n log\sim In log∼In)

0.1 信息熵

0.2 联合熵

0.3 条件熵

0.4 互信息

0.3 交叉熵

0.4 KL散度(Kullback-Leibler Divergence)

0. 熵(除本节外， $log\sim In$ )