花书第三章——概率与信息论

小李子-_-

已于 2024-09-03 19:10:11 修改

阅读量683

点赞数 13

分类专栏：机器学习文章标签：机器学习

于 2024-09-03 19:07:45 首次发布

本文链接：https://blog.csdn.net/m0_46610658/article/details/141866795

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

3.1 概率分布

随机变量
随机变量是可以随机地取不同值的变量。例如， $x_1$ 和 $x_2$ 都是随机变量 x 可能的取值。随机变量可以是离散的或者连续的。离散随机变量拥有有限或者可数无限多的状态。注意这些状态不一定非要是整数；它们也可能只是一些被命名的状态而没有数值。连续随机变量伴随着实数值。
概率分布(probability distribution)用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。我们描述概率分布的方式取决于随机变量是离散的还是连续的。

（1）离散型变量和概率质量函数：离散型变量的概率分布可以用概率质量函数(probability mass function，简称PMF)来描述。
在这里插入图片描述

（2）连续型变量和概率密度函数

在这里插入图片描述

3.2 条件概率、独立性和贝叶斯规则

条件概率

在这里插入图片描述
上面表示在事件 x = $x$ 发生的条件下(前提下)，事件 y = $y$ 发生的概率。即在空间 x = $x$ 里面研究y = $y$ 。
2. 独立性

在这里插入图片描述
3. 贝叶斯规则

在这里插入图片描述

3.3 期望、方差和协方差

期望
方差
协方差

3.4 信息论

信息论简述

信息论是应用数学的一个分支，主要研究的是对一个信号包含信息的多少进行量化。它最初被发明是用来研究在一个含有噪声的信道上用离散的字母表来发送消息，例如通过无线电传输来通信。在这种情况下，信息论告诉我们如何对消息设计最优编码以及计算消息的期望长度，这些消息是使用多种不同编码机制、从特定的概率分布上采样得到的。
在这里插入图片描述

香农熵(信息熵)

一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。香农熵越大，系统越不稳定，不确定性越大，可信度越低；香农熵越小，系统越稳定，不确定性越小，可信度越高。
KL散度(相对熵)

KL散度有很多有用的性质，最重要的是它是非负的。KL散度为0当且仅当P和 Q 在离散型变量的情况下是相同的分布，或者在连续型变量的情况下是"几乎处处"相同的。因为 KL 散度是非负的并且衡量的是两个分布之间的差异，它经常被用作分布之间的某种距离。
交叉熵

参考：
概率论——深度学习花书第三章
花书中文版.pdf

小李子-_-

关注

13
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
花书第三章——概率与信息论

随机变量随机变量是可以随机地取不同值的变量。例如，x1和x2都是随机变量 x 可能的取值。随机变量可以是离散的或者连续的。离散随机变量拥有有限或者可数无限多的状态。注意这些状态不一定非要是整数；它们也可能只是一些被命名的状态而没有数值。连续随机变量伴随着实数值。概率分布(probability distribution)用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。我们描述概率分布的方式取决于随机变量是离散的还是连续的。
复制链接

扫一扫

专栏目录