(笔记—深度学习)：Chapter3-概率论和信息论

最新推荐文章于 2022-04-03 13:50:14 发布

小何尚

最新推荐文章于 2022-04-03 13:50:14 发布

阅读量929

点赞数 1

分类专栏：深度学习文章标签：深度学习概率论

本文链接：https://blog.csdn.net/qq_35588560/article/details/78991276

版权

本文深入探讨了概率论和信息论在深度学习中的基础概念，包括随机变量、概率分布、条件概率、独立性、期望、方差、常用概率分布如伯努利、高斯和指数分布，以及信息论中的自信息和交叉熵。这些理论是理解和应用人工智能系统推断及行为分析的关键。

摘要由CSDN通过智能技术生成

概率论提供了一种量化不确定性的方法和和推导新的不确定陈述的公理，在人工智能领域，主要有两种应用，第一：概率法则告诉我们AI系统是如何推断的；第二：我们可以用概率论和统计来对AI的行为进行理论分析。

概率论使我们得出不确定陈述和不确定性存在的原因；
信息论使我们能够量化概率分布的不确定性。

1- Why Probability?

不确定性有三种可能的来源：

被建模系统内在的随机性。
不完全观测。
不完全建模。模型舍弃了一些观测信息

频率派概率（ $frequentist \ probability$ ）:通过大量的可重复性实验，观测某一事件出现的频率，用于表示该事件的概率。
贝叶斯概率( $Bayesian \ probability$ ): 对于不可重复性的命题，推断者通过一定的置信度( $degree \ of \ belief$ ),来表示事件的可能性。
为满足所期望的性质，将频率派概率和贝叶斯概率视为等同的。

2-随机变量

随机变量是可以随机取不同的值得变量，表示方式如下：

随机变量： $\rm x$ , 随机变量的取值： $\it x_i$
随机向量： $\mathbf x$ (加粗)，随机向量的取值 $\boldsymbol x_i$

3- 概率分布

概率分布（probability distribution）用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小

3-1 离散型随机变量

离散型随机变量用概率质量函数( $Probability \ mass \ function,PMF$ )来描述。例如，
随机变量 $\rm x$ 的PMF： $P(\rm x )$ ,则 $\rm x \sim P(\rm x)$
变量值 $x_i$ 的概率: $P(x_i)$

联合概率分布用于表示多个变量的概率分布： $P(\rm x =\it x, \rm y =\it y)$
PMF必须满足的几个条件：

P的定义域必须是 $\rm x$ 所有状态的集合
$\forall x_i \in {\rm x}, 0 \le P(x) \le 1$
$\sum_{x_i \in \rm x} P(x_i) = 1$

3-2连续性随机变量

连续型变量用概率密度函数( $Probability \ density \ function, PDF$ )描述。用 $p$ 来表示。
函数 $p$ 需要满足条件：

$p$ 的定义域必须是 $\rm x$ 所有状态的集合
$\forall x_i \in {\rm x}, 0 \le p(x_i)$ ,不要求 $p(x_i) \le 1$
$\int p(x)dx = 1$

例：
实数区间的均匀分布用 $u(x;a,b)$ 表示， $x \sim U(a,b)$ ;区间的端点 $a,b$ 满足 $a<b$ , 符号 $“：”$ 表示以什么为参数。

u (x : a, b) = {1 b - a 0 if x \in [a, b] if x \notin [a, b]

$u(x:a,b) = \begin{cases} \frac {1}{b-a} & \text{if $x \in [a,b]$} \\ 0 & \text{if $x \notin [a,b]$} \end{cases}$

4-边缘概率

边缘概率分布( $margin \ probability \ distribution$ )是指在已知一组随机变量联合概率分布的情况下，求其中一个子集的概率分布。例如：
离散型随机变量 $\rm x,y$ ,且已知其联合概率分布 $P(\rm x,y)$ ,则利用求和法则来计算边缘分布： $P({\rm x} = x) = \sum_y P ({\rm x} = x,{\rm y}=y)$
连续性随机变量：使用积分表示 $p({\rm x}=x)=\int p({\rm x}=x,{\rm y}=y)dy$