花书第三章——概率与信息论

3.1 概率分布

  1. 随机变量
      随机变量是可以随机地取不同值的变量。例如, x 1 x_1 x1 x 2 x_2 x2 都是随机变量 x 可能的取值。随机变量可以是离散的或者连续的。离散随机变量拥有有限或者可数无限多的状态。注意这些状态不一定非要是整数;它们也可能只是一些被命名的状态而没有数值。连续随机变量伴随着实数值。

  2. 概率分布(probability distribution)用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。我们描述概率分布的方式取决于随机变量是离散的还是连续的。

(1)离散型变量和概率质量函数:离散型变量的概率分布可以用概率质量函数(probability mass function,简称PMF)来描述。
在这里插入图片描述
在这里插入图片描述

(2)连续型变量和概率密度函数

在这里插入图片描述

3.2 条件概率、独立性和贝叶斯规则

  1. 条件概率

在这里插入图片描述
  上面表示在事件 x = x x x 发生的条件下(前提下),事件 y = y y y 发生的概率。即在空间 x = x x x里面研究y = y y y
2. 独立性

在这里插入图片描述
3. 贝叶斯规则

在这里插入图片描述

3.3 期望、方差和协方差

  1. 期望
    在这里插入图片描述
  2. 方差
    在这里插入图片描述
  3. 协方差
    在这里插入图片描述

3.4 信息论

  1. 信息论简述

  信息论是应用数学的一个分支,主要研究的是对一个信号包含信息的多少进行量化。它最初被发明是用来研究在一个含有噪声的信道上用离散的字母表来发送消息,例如通过无线电传输来通信。在这种情况下,信息论告诉我们如何对消息设计最优编码以及计算消息的期望长度,这些消息是使用多种不同编码机制、从特定的概率分布上采样得到的。
在这里插入图片描述

  1. 香农熵(信息熵)
    在这里插入图片描述
    在这里插入图片描述
      一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。香农熵越大,系统越不稳定,不确定性越大,可信度越低;香农熵越小,系统越稳定,不确定性越小,可信度越高

  2. KL散度(相对熵)
    在这里插入图片描述
    KL散度有很多有用的性质,最重要的是它是非负的。KL散度为0当且仅当P和 Q 在离散型变量的情况下是相同的分布,或者在连续型变量的情况下是"几乎处处"相同的。因为 KL 散度是非负的并且衡量的是两个分布之间的差异,它经常被用作分布之间的某种距离。

  3. 交叉熵
    在这里插入图片描述

参考:
概率论——深度学习花书第三章
花书中文版.pdf

  • 13
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值