《计算机视觉：模型、学习和推理》自学笔记（二）-概率（1）

最新推荐文章于 2023-03-10 10:42:21 发布

YuYunTan

最新推荐文章于 2023-03-10 10:42:21 发布

阅读量1.5k

点赞数 4

分类专栏：计算机视觉读书笔记文章标签：计算机视觉模型学习推理概率贝叶斯公式习题答案

本文链接：https://blog.csdn.net/YuYunTan/article/details/79214393

版权

计算机视觉同时被 2 个专栏收录

44 篇文章 20 订阅

订阅专栏

读书笔记

8 篇文章 0 订阅

订阅专栏

概率概述

前言

上一篇自学笔记的博文，描述了计算机视觉和机器视觉的区别以及其含义和计算机视觉的简单历史。

本文之后的几个部分都是围绕概率和概率分布来进行，要知道，几乎所有的计算机视觉模型可以在概率范围内解释。概率解释看起来复杂，但却提供了使用的通用符号，阐明复杂模型之间的关系。

概率是适合描述计算机视觉问题的语言。原因是，在照相机里，三维世界投影到光学器件表面从而形成图像：一个关于测量参数的二维集合。我们的目标是获得这些测量参数并使用它们组建创建它们的世界的特性。然而存在两个问题。

测量过程有噪声干扰。我们所观察到的不是进入传感器的光线量，而是其总量的噪声估计。我们必须描述这些数据的噪声，为此需要利用概率。
现实世界和测量参数之间的关系一般是多对一的：现实世界的许多配置可能有相同的测量参数。每一个可能世界的存在概率也是用概率表示的。

本文对概率模型和贝叶斯理论进行描述。补充书中不详尽的内容，并尝试撰写课后习题答案，若有错误，请指出，以便博主修改。

概率前导

概率论用于研究相继发生或同时发生的大量现象的平均特性，比如电子发射、系统故障之类。

人们已经观测到，当观测次数增加时，某些量的平均会趋于一个常数，即使平均是对实验前特定的任何子序列进行，其值仍保持不变。举个例子，在投掷硬币实验，正面出现的比例接近0.5或其他某个常数。

概率论的目的就是用事件的概率来描述和预测这些平均量。事件 A 的概率就是赋予这一事件的一个数 P(A)，其可以解释如下。
如果实验重复进行N次，事件A发生 $\large{n_A}$ 次，则当n足够大时，A发生的相对频率 $n_A/n$ 以高度的确定性接近 P(A)： $P(A)\approx \frac{n_A}{n}\tag {1.1}$

这种解释不精确，术语“以高度的确定性”，“接近”，“足够大”的含义都不明确，但是，这种不精确性不可避免。

概率定义

公理化定义

采用集合论的概念：必然事件S是每次试验均发生的事件。

两个事件A和B的并 $\small{A\cup B\equiv A+B}$ 是一个新事件，表示A和B之一发生或两者皆发生。
事件A和B的交 $\cap B\equiv AB}$ 是另一事件，表示A和B都发生。
若A和B中一个事件发生排斥另一个事件的发生，则称事件A和B是互斥的或互不相容的

以投股子实验说明：六个面中出现任何一面的事件是必然事件。“偶数点”事件和“小于3点”事件的并是事件“1点”或“2点”或“4点”或“6点”；而两者的交是事件“2点”。“偶数点”和“奇数点”事件是互斥的。
概率论公里化方法从下列假设出发

任意事件A的概率P(A)是赋予此事件的一个非负实数： $P(A)\geq 0\tag {1.2}$
必然事件的概率等于1： $P(S)=1\tag {1.3}$
如果两个事件A和B是互斥的，则： $P(A\cup B)=P(A)+P(B)\tag {1.4}$

该方法用于概率的历史并不久远。但是却是引出概率的最好途径，它强调理论的演绎特性，避免概念模糊，也为复杂的应用提供坚实基础。
严谨些的公理化学术定义应该如此定义。

设E是随机试验，S是它的样本空间。对于E的每一事件A赋于一个实数，记为P(A)，称为事件A的概率。这里P(A)是一个集合函数，P(A)要满足下列条件：

非负性：对于每一个事件A，有 $P(A)\geq 0$
规范性：对于必然事件 $\Omega$ ,有 $P(\Omega)=1$
可列可加性：设 $A_1,A_2,.....$ 是两两互不相容的事件，即对于 $i\neq j,A_i\cup A_j = \Phi$ ，则： $P(A_1 \cup A_2 \cup ....)=P(A_1)+P(A_2)+......$

其中， $\Omega,\Phi$ 分别表示必然事件（在一定条件下必然发生的事件）和不可能事件（在一定条件下必然不发生的事件）。

相对频率定义

相对频率方法是基于下述定义：一事件A的概率P(A)是极限 $P(A)=\lim_{n \rightarrow +\infty} \frac{n_A}{n}\tag{1.5}$

式中 $\small{n_A}$ 是A 的发生次数， $n$ 是试验次数。
用 $\small{(1.5)}$ 来定义P(A)，这个极限只能作为一种假说接受，而不是一个可以用实验确定的数。

古典定义

古典实验，如果一个试验满足两条：

试验只有有限个基本结果
试验的每个基本结果出现的可能性是一样的。

这样的试验便是古典试验。

对于古典试验中的事件A的概率P(A)可以不经实际实验而先验确定。它的值由下式给出 $P(A)=\frac{N_A}{N}\tag{1.6}$
式中N是可能结果的总数，而 $\small{N_A}$ 是属于事件A的结果数。
在投骰子实验中，可能的结果数为6，而属于“偶数点”这一事件的结果数为3，所以 $\small{P(偶数点)=\frac{3}{6}}$
式 $\small{(1.6)}$ 需要标注

如果所有结果是等可能的，一事件的概率等于属于它的结果数与总结果数的比

古典定义存在一定问题：
A.确定 $\small{N}$ 和 $\small{N_A}$ 是困难的
B.适用问题类型有限。非等概率事件无非适用。

概率公理

集合论

集合是一类事物构成的整体，构成集合的事物称为集合的元素。

例：“苹果、汽车、铅笔”构成一个集合，其元素是苹果、汽车和铅笔

集合A的一个子集B是一个集合，它的元素都是A的元素。若考虑的所有集合都是某个集合S的子集，我们称S为空间。

大多数情况下，集合的元素用希腊字母 $\small{\xi}$ 表示，如 $A=\{\xi_1,\xi_2,...,\xi_n \}\tag{1.7}$
的意义是集合A由元素 $\xi_1,...,\xi_n$ 组成。有时也按照元素的性质来表示集合，如， $A=\{所有正整数\}\tag{1.8}$
表示集合A的元素为1，2，3，…。
记号 $\xi_i\in A\qquad \xi_i\notin A$
分别表示 $\xi_i$ 是A的元素或不是A的元素。
空集或零集表示不包含任何元素的集合，记做 $\{\phi\}$ 。
如果一个集合由 $\small{n}$ 个元素组成，则其子集的总数等于2。

元素 $\xi$ 和由单个元素 $\xi$ 构成的集合 $\{\xi\}$ 有区别

集合运算

以下图所示的平面图（文氏图）来表示集合S和它的子集

图1

记号 $\small{B\subset A}$ 或 $\small{B\supset A}$ 表示B是A的子集，即B的每一个元素都是A的元素。因此，对与任意的A， $\{\emptyset\}\subset A \subset S\tag{1.9}$
传递性如果 $\small{C\subset B}$ 和 $\small{B\subset A}$ ，则 $\small{C\subset A}$
等价性当且仅当 $\small{A\subset B}$ 且 $\small{B\subset A}$ ，则 $\small{A=B}$

并集和交集 两个集合A，B的并（或和）是一个新的集合，它由所有属于A，B或两者共有的元素构成,如下图所示。

图2

图中橙红色和蓝色合在一起为 $\small{A+B或A\cup B}$

这个集合可以写成 $A+B或A\cup B$
并运算满足交换律和结合律，即 $A\cup B=B\cup A\\(A\cup B)\cup C = A \cup(B\cup C)$
可以看出，如果 $\small{B\subset A}$ ,则 $\small{A\subset B = A}$ ,由此可得 $A\cup B =B\cup A\\ A\cup \{\emptyset\}=A\\ S\cup A=S$
两个集合A,B的交（或积）是一个新的集合，它由A和B共有的元素组成,如图2。可以写成 $AB或A\cup B$

图3

交运算满足交换律、结合律和分配律，如图3。 $AB=BA\\(AB)C=A(BC)\\A(B\cup C)=AB\cup AC$
可以看出，如果 $A\subset B$ ，则 $A B = A$ 。因此 $AA=A\\ \{\emptyset\}A=\{\emptyset\}\\AS=A$

互斥的集合 两个集合A和B，如果它们没有公共元素，即 $AB=\{\emptyset\}$
则称这两个集合为互斥的或不相交的
几个集合 $\small{A_1,.A_2,...}$ ，如果对所有的 $\small{i}$ 和 $\small{j}$ ， $A_iA_j=\{\emptyset\}，\forall i \not=j\tag{1.10}$
则这几个集合被称为互斥的。

图4

$A_1,A_2,A_3$ 是互斥的

分割集合S的一个分割是指S的互斥子集 $A_i$ 构成的类，它们的并正好是S，如图5所示，即 $A_1\cup A_2\cup ...\cup A_n=S\\A_iA_j=\{\emptyset\},i\not=j,,n=12$

图5

我们用黑体字分割，记作 $U=[A_1,A_2,...,A_n]$

补集集合A的补集 $\small{\overline{A}}$ 由S内所有不在A中的元素组成，如图6所示。从这一定义 $A\cup \overline{A} =S \\A\overline{A}=\{\emptyset\}\\\overline{\overline{A}}=A\\\overline{S}=\{\emptyset\}\\\{\overline{\emptyset}\}=S$

如果 $\small{B\subset A}$ ,则 $\small{\overline{B}\supset \overline{A}}$ ;如果 $\small{A=B}$ ,则 $\small{\overline{A}=\overline{B}}$

图6

德摩根定律 从图7容易看出
$\begin{aligned}\overline{A\cup B}=\overline{A}\times\overline{B}\\ \overline{AB}=\overline{A} \cup \overline{B}\tag{1.11}\end{aligned}$
反复应用1.11式，可导出下列结论：

在集合恒等式里，如果将所有集合用它们的补代替，所有的并用交代替，所有的交用并代替，则恒等式仍然成立。

图7

对偶原理 由于 $\small{\overline{S}=\{\emptyset\}}$ 和 $\small{\overline{\{\emptyset\}}=S}$ ，根据德摩根定律可引出下面结论：

在集合恒等式中将所有的并用交代替，交用并代替，集合S和 $\small{\{\emptyset\}}$ 分别用 $\small{\{\emptyset\}}$ 和S代替，则恒等式仍然成立。

概率空间

概率论中：

空间S或 $\small{\Omega}$ 称为必然事件，它的元素称为实验结果，它的子集称为事件。
空集 $\small{\{\emptyset\}}$ 称为不可能事件
由单个元素 $\xi_i$ 组成的事件 $\small{\xi_i}$ 为基本事件。

试验一个实验的单次实现称为试验。每次试验中，观测到一个结果 $\xi_i$ 。如果事件 A包含元素 $\xi_i$ ，则说在这次试验中事件 A 发生。必然事件在每一次试验都发生，不可能事件在每次试验都不会发生。当A 和B 或两者都发生时，事件 $\small{A \cup B}$ 发生。当A 和B 均发生时，事件AB 发生。如果事件 A 和B 互斥，且 A 发生，则B 不会发生。如果 $\small{A\subset B}$ , 且 A 发生，则B 一定发生。在每次试验里，A 或 $\small{\overline{A}}$ 总会有一个发生。

公理 $\blacktriangleright$ 单个事件A一个数P(A)，并称之为事件A的概率。这个数应该满足下面三个条件：

$P(A)\geq 0$
$P (S) = 1$
若 $\small{AB=\{\emptyset\}}$ ，则 $\small{P(A\cup B)=P(A)+P(B)}$

性质不可能事件概率为零 $P\{\emptyset\}=0\tag{1.12}$

由 $\small{A\{\emptyset\}}=\{\emptyset\}$ 和 $\small{A\cup \{\emptyset\}}=A$ ,得 $P(A)=P(A\cup \emptyset)=P(A)+P\{\emptyset\}$

对任意的A： $P(A)=1-P(\overline{A})\leq 1\tag{1.13}$

又因 $\small{A \cup \overline{A}=S}$ 和 $\small{A \overline{A}=\{\emptyset\}}$ ,所以 $1=P(S)=P(A\cup \overline{A})=P(A)+P(\overline{A})$

对与任意的A和B $P(A\cup B)=P(A)+P(B)-P(AB)\leq P(A)+P(B)$

事件的相等 两个事件A和B，如果它们由相同的元素组成，则称为相等。如果属于A或B但不属于AB的所有结果（如图8阴影部分）组成集合 $(A\cup B)(\overline{AB})=A\overline{B}\cup\overline{A}B$ 的概率为零，则称A和B以概率1相等。

当且仅当 $P(A)=P(B)=P(AB)\tag{1.14}$ 时，事件A和B以概率1相等。

图8

随机变量

随机变量是 $x$ 表示一个不确定的数量。该变量可以表示一个实验的结果（例如，抛硬币）或波动特性的真实量度（例如，测量温度）。如果我们观察几个实例 $\small{\{x_i\}^I_{i=1}}$ ,它可能在每一个场合取不同的值。然而，一些值可能比其他值更容易出现。这种消息是由随机变量的概率分布 $\small{Pr(x)}$ 决定的。

随机变量可以是离散的或连续的。离散变量从一组预先确定的集合取值。这组值可能是有序的（掷骰子的点数从1到6）或者无序的（观察天气的结果是“晴”、“下雨”或“下雪”）。它可能是有限的（从标准扑克牌中随机抽出一张牌，有52种可能）或者无限的（从理论上说，下一班火车上的人数是无限的）。离散变量的概率分布可以可视化为一个直方图或Hinton图（图9所示）。每个结果都有与之相关的正概率，且所有结果之和总为1。

图9

离散概率的两种不同表示。a)表示不均匀六面的骰子每一面落在地上的柱状图。因为柱状图中柱子的高度代表每面的概率，所以所有的高度和为1。b)表示观察到英国不同天气类型概率的Hinton图。因为方形区域的面积表示每种天气出现的概率，所以所有面积之和为1

连续随机变量取实数值。这些取值可能是有限的（要完成时长两小时考试所花费时间是介于0~2小时之间的）或无限的（下一班车到达的事件是无上界的实数）。无限连续变量可能取遍整个实数范围，或者可能是仅有上界或下界的区间（车辆的速度能够取任意值，但速率的下界为0）。连续变量的概率分布可以通过绘制概率密度函数（PDF）来可视化。一个结果的概率密度表示随机变量取该值的相对可能性（见下图10）。它可以取任何正值。然而，PDF的积分总是1。

图10

连续概率分布(概率密度函数或简称PDF)。即完成测试所需的时间。注意，概率密度可超过1，但曲线的面积必须是单位面积

联合概率

假设两个随机变量 $x$ 和 $y$ ,若观察 $x$ 和 $y$ 的多个成对实例，结果中某些组合出现得较为频繁。这样的情况用 $x$ 和 $y$ 的联合概率分布表示，记做 $\small{Pr(x,y)}$ 。在 $\small{Pr(x,y)}$ 中的逗号可以理解为“和”，所以 $\small{Pr(x,y)}$ 是 $x$ 和 $y$ 的概率。一个联合概率分布中的相关变量可能全是离散变量。或全是连续变量，亦或是兼而有之（见图11）。不管怎样，所有结果的概率之和（离散变量的总和与连续变量的积分）总是1。

图11

变量 $x$ 和 $y$ 的联合概率分布。a-c)两个连续变量的概率密度函数分别呈现为曲面图、等值线图和图像。d）表示两个离散变量联合概率分布的二维Hinton图。e)表示连续变量 $x$ 和离散变量 $y$ 的联合概率分布。f)表示离散变量 $x$ 和连续变量 $y$ 的联合概率分布

一般来说，与二元变量的概率分布相比，我们会对多元变量的联合概率分布更感兴趣。我们将 $\small{Pr(x,y,z)}$ 记为标量变量 $x$ 、 $y$ 和 $z$ 的联合概率分布，也可以把 $\small{Pr(x)}$ 当成所有多维元素 $\small{x=[x_1,x_2,...,x_k]^T}$ 的联合概率。最后，我们用 $\small{Pr(x,y)}$ 表示所有多维变量 $x$ 、 $y$ 的联合概率分布。

边缘化

任意单变量的概率分布都可以通过在联合概率分布上求其他变量的和（离散）或积分（连续）而得到了（见图12）。例如，如果 $x$ 和 $y$ 是连续的，并且已知 $\small{Pr(x,y)}$ ，那么通过如下计算就可以得到概率分布 $\small{Pr(x)}$ 和 $\small{Pr(y)}$ ：
$\begin{array}{lcl} Pr(x)&=\int Pr(x,y)dy \\ Pr(y)&=\int Pr(x,y)dx \end{array}\tag{1.15}$
所求出的分布 $\small{Pr(x)}$ 和 $\small{Pr(y)}$ 称为为边缘分布，其他变量的积分/求和过程称为边缘化。联合分布 $\small{Pr(x,y)}$ 中忽略变量 $y$ 的影响，计算边缘分布 $P r (x)$ （实际上是y被边缘化）的过程也可以简单地解释为：计算 $x$ 的概率密度分布且忽略（或不考虑） $y$ 的值。

图12

联合概率分布和边缘概率分布。边缘概率 $P r (x)$ 由联合概率 $P r (x, y)$ 中对所有的 $y$ 值求和（离散）或积（连续）所得。同样，边缘概率 $P r (y)$ 是通过对所有 $x$ 求和或积分而得的。注意，由边缘分布与联合分布具有不同的比例（在同一比例下，边缘分布会由于是从一个方向求得的和和值所以显得更大）。a) $x$ 和 $y$ 是连续的。b) $x$ 和 $y$ 是离散的。c)随机变量 $x$ 是连续变量，变量 $y$ 是离散的。

一般来说，可以通过边缘化所有其他的变量求出任何变量子集的联合概率。例如，给定变量 $w, x, y, z$ ，其中 $w$ 是离散的， $z$ 是连续的，可以使用下面的式子求得 $\small{Pr(x,y)}$ : $Pr(x,y)=\sum_{w}\int Pr(w,x,y,z)dz\tag{1.16}$

条件概率

给定 $y$ 取 $y^*$ 时 $x$ 的条件概率，是随机变量 $x$ 在 $y$ 的取固定值 $y *$ 时 $x$ 的相对概率的取值。这个条件概率记为 $\small{Pr(x|y=y*)}$ 。“|”可以理解为“给定”

图13

条件概率 $x$ 和 $y$ 的联合概率密度函数以及两个条件概率分布 $\small{Pr(x|y=y_1)}$ 和 $Pr(x|y=y_2)$ 。通过从联合概率密度函数中提取切片并规范化，确保区域一致。同样的操作也适用于离散分布。

条件概率 $\small{Pr(x|y=y*)}$ 可以由联合分布中某个恰当的切片 $\small{Pr(x,y=y*)}$ （见图13）。切片值表示出当 $y = y *$ 时， $x$ 取不同值的相对概率，但其本身没有形成有效的概率分布。因为它们仅构成联合分布的一小部分，其总和不会是1，而联合概率自身总和为1。为计算条件概率分布，因此需要规范化切片中的总概率 $Pr(x|y=y*)=\frac{Pr(x,y=y*)}{\int{Pr(x,y=y*)dx}}=\frac{Pr(x,y=y*)}{Pr(y=y*)}\tag{1.17}$
其中，使用边缘概率关系式（式1-15）去简化分母。通常情况下不会显式定义 $y = y *$ ,所以条件概率关系式可以简化缩写为： $Pr(x|y)=\frac{Pr(x,y)}{Pr(y)}\tag{1.18}$
重新整理得到： $Pr(x,y)=Pr(x|y)Pr(y)\tag{1.19}$
由对称性也可得： $Pr(x,y)=Pr(y|x)Pr(x)\tag{1.20}$
当有两个以上的变量时，可以不断用条件概率分布将联合概率分布分解为乘积形式： $\begin{aligned} Pr(w,x,y,z) & =Pr(w,x,y|z)Pr(z)\\ & =Pr(w,x|y,z)Pr(y|z)Pr(z)\\ &= Pr(w|x,y,z)Pr(x|y,z)Pr(y|z)Pr(z)\\ \end{aligned}\tag{1.21}$

贝叶斯公式

在式(1.20)和式（1.21）中，分别用两种方式表示联合概率。结合这些公式，可以得到 $\small{Pr(x|y)}$ 和 $\small{Pr(y|x)}$ 之间的关系：
$Pr(y|x)Pr(x)=Pr(x|y)Pr(y)\tag{1.22}$
重新整理后得到：
$\begin{aligned} Pr(y|x) & =\frac{Pr(x|y)Pr(y)}{Pr(x)}\\ & =\frac{Pr(x|y)Pr(y)}{\int{Pr(x,y)dy}}\\ &= \frac{Pr(x|y)Pr(y)}{\int{Pr(x|y)Pr(y)dy}}\\ \end{aligned}\tag{1.22}$
其中，第二行、第三行分别利用边缘概率和条件概率的定义对分母进行展开。这三个式子统称为贝叶斯公式。
贝叶斯公式中每项都有一个名称。等号左边的 $P r (y ∣ x)$ 叫做后验概率，表示给定 $x$ 下 $y$ 的概率。反之， $P r (y)$ 叫做先验概率，表示在考虑 $x$ 之前 $y$ 的概率。 $P r (x ∣ y)$ 叫做似然性，分母 $P r (x)$ 是证据。
在计算机视觉中，常常用条件概率 $P r (x ∣ y)$ 来表示变量 $x$ 与 $y$ 的关系。然而，我们主要感兴趣的可能是变量 $y$ ，在这种情况下，概率 $P r (y ∣ x)$ 就用贝叶斯公式来计算。

独立性

如果从变量 $x$ 不能获得 $y$ 的任何信息（反之亦然），就被 $x$ 和 $y$ 是独立的（见图14），可以表示为：

图 14

独立性。a) 连续独立变量 $x$ 和 $y$ 的联合概率密度函数。 $x$ 和 $y$ 的独立性意味着每一个条件分布相同：从 $y$ 的值中不能推断出 $x$ 的取值概率，反之亦然。与图13变量依赖形成对比。b) 离散独立变量 $x$ 和 $y$ 的联合分布。对于给定的 $y$ 值 $x$ 的条件分布相同。

$\begin{array}{cccc}Pr(x|y)=Pr(x)\\Pr(y|x)=Pr(y)\end{array}\tag{1.23}$
代入式子（1.19）中可得，独立变量的联合概率 $P r (x, y)$ 是边缘概率 $P r (x)$ 和 $P r (y)$ 的乘积。
$Pr(x,y)=Pr(x|y)Pr(y)=Pr(x)Pr(y)\tag{1.24}$

期望

给定一个函数 $f[\cdot]$ 和每个 $x$ 所对应的概率 $Pr(x=x^*)$ ,函数对变量 $x$ 的每个值 $x^*$ 都返还一个值，有时希望求函数的期望输出。如果从概率分布中抽取大量样本，计算每个样本的函数，并求这些值的平均值，其结果就是期望。更确切的地说，在离散及连续的情况下，一个随机变量 $x$ 的函数 $f[\cdot]$ 的期望值分别定义为
$\begin{array}{lcl}E[f[x]]&=&\sum\limits_x f[x]Pr(x)\\E[f[x]]&=&\int f[x]Pr(x)dx\end{array}\tag{1.25}$

将这种思路推广到二元随机变量的函数 $f[\cdot]$ 的期望值分别定义为
$\int\int f[x,y]Pr(x,y)dxdy\tag{1.26}$
对于某些特殊的函数 $f[\cdot]$ ,期望被赋予特殊的名称（见表1）。这些特殊函数常用来概括复杂概率分布的性质。

函数 $f[\cdot]$	期望
$x$	均值 $\mu_x$
$x^k$	关于零的第 $k$ 阶矩阵
$(x-\mu_x)^k$	关于均值的第 $k$ 阶矩阵
$(x-\mu_x)^2$	方差
$(x-\mu_x)^3$	偏度
$(x-\mu_x)^4$	峰度
$(x-\mu_x)(y-\mu_y)$	$x$ 和 $y$ 的协方差

期望四条性质

通过期望原始定义（公式 $1.25$ ）能够得证：

若随机变量 $x$ 是常数 $k$ ，则其期望是常数本身： $E[k]=k\tag{1.27}$
常数 $k$ 与函数 $f [x]$ 的乘积所得函数的期望是函数 $f [x]$ 期望的 $k$ 倍： $E[kf[x]]=kE[f[x]]\tag{1.28}$
随机变量都是 $x$ 时:函数 $f [x]$ 和 $g [x]$ 相加所得函数的期望是两个函数期望的和： $E[f[x]+g[x]]=E[f[x]]+E[g[x]]\tag{1.29}$
函数 $f [x]$ 和 $g [y]$ 相乘所得函数的期望是两个函数期望的乘积： $E[f[x]g[y]]=E[f[x]]E[g[y]](若x和y独立)\tag{1.30}$

习题

以下习题(部分)答案仅供参考，若有误请指出。

边缘化5个变量的联合分布 $P r (v, w, x, y, z)$ ，仅仅考虑变量 $w, y$ ，结果将会是什么？对于 $v$ 的边缘化分布结果又是什么？
仅考虑变量 $w, y$ ：
$\begin{aligned}Pr(v,w,x,y,z)&=Pr(v,x,z,w|y)Pr(y)\\&=Pr(v,x,z|w,y)Pr(w|y)Pr(y)\\&=Pr(v,x,z|w,y)Pr(w,y)\end{aligned}$
可以得到
$Pr(w,y)=\frac{Pr(v,w,x,y,z)}{Pr(v,x,z|w,y)}$
对于 $v$ 的边缘化：
$P r (v, w, x, y, z) = P r (w, x, y, z ∣ v) P r (v)$
可以得到
$Pr(v)=\frac{Pr(v,w,x,y,z)}{Pr(w,x,y,z|v)}$
证明下面等式成立：
$P r (w, x, y, z) = P r (x, y) P r (z ∣ w, x, y) P r (w ∣ x, y)$
证明：
$\begin{aligned}Pr(w,x,y,z)&=Pr(z|w,x,y)Pr(w,x,y)\\&=Pr(z|w,x,y)Pr(w|x,y)Pr(x,y)\end{aligned}$
证毕。
在我的口袋里有两枚硬币。第一枚硬币是公平的，所以证明向上的似然性 $P r (h = 1 ∣ c = 1)$ 是0.5，反面向上的似然性 $P r (h = 0 ∣ c = 1)$ 也是0.5。第二枚硬币是不公平的，证明向上的似然性 $P r (h = 1 ∣ c = 2)$ 是0.8，而反面向上的似然性是 $P r (h = 0 ∣ c = 2)$ 是0.2。将手伸入口袋，随机选取一枚硬币。选取任何一枚硬币的先验概率是相同的。投掷所选硬币观察到正面朝上，利用贝叶斯公式计算选取第二枚硬币的后验概率。
选取任何一枚硬币的先验概率是相同，说明： $P r (c = 1) = P r (c = 2) = 0.5$
题目要求，在已知所选观察是正面朝上，然而是第二枚硬币的概率，即求 $P r (c = 2 ∣ h = 0)$ 是多少？
由贝叶斯概率可以很容易得到
$P r (c = 2 ∣ h = 0) P r (h = 0) = P r (h = 0 ∣ c = 2) P r (c = 2)$
上述式子中 $P r (h = 0)$ 是未知的。依据
$P r (h = 0) = P r (h = 0 ∣ c = 1) P r (c = 1) + P r (h = 0 ∣ c = 2) P r (c = 2)$

上述式子是对 $P r (h = 0, c)$ 进行积分，因为 $c$ 是离散的，所以可以展开

由贝叶斯概率可以很容易得到 $P r (h = 0) = 0.5 * 0.5 + 0.2 * 0.5 = 0.35$

很容易求解得到
$Pr(c=2|h=0)=\frac{Pr(h=0|c=2)Pr(c=2)}{Pr(h=0)}=\frac{0.2*0.5}{0.35}=\frac{2}{7}$

如果变量 $x$ 和 $y$ 是互相独立的，变量 $x$ 和 $z$ 是相互独立的，那么变量 $y$ 和变量 $z$ 是相互独立的吗？
不，这并不遵循。考虑一般的分布 $P r (y, z)$ ，其中 $y$ 和 $z$ 并不独立。考虑可能存在第三个分布概率 $P r (x)$ ，该分布没有提供关于 $y$ 或 $z$ 的任何信息，因此和这两个变量都互相独立。也就是 $P r (x, y) = P r (x) P r (y)$ 和 $P r (x, z) = P r (x) P r (z)$ 。
利用式子（1.17）证明当 $x$ 和 $y$ 互相独立时，边缘概率分布 $P r (x)$ 与任意 $y^*$ 的条件概率 $Pr(x|y=y^*)$ 等价。
由已知 $Pr(x|y=y^*)=\frac{Pr(x,y=y^*)}{\int{Pr(x,y=y^*)dx}}=\frac{Pr(x,y=y^*)}{Pr(y=y^*)}$ 。
又因为 $x$ 和 $y$ 互相独立，所以 $Pr(x,y=y^*)=Pr(x)Pr(y=y^*)$ 。
代入即可得证。
四个变量的联合概率密度 $P r (w, x, y, z)$ 因式分解为： $P r (w, x, y, z) = P r (w) P r (z ∣ y) P r (y ∣ x, w) P r (x)$ 证明若 $P r (x, w) = P r (x) P r (w)$ ， $x$ 和 $w$ 是相互独立的。
由 $P r (w, x, y, z)$ 可以分解得到 $P r (w, x, y, z) = P r (y, z ∣ x, w) P r (x ∣ w) P r (w)$
因为 $P r (x, w) = P r (x) P r (w)$ ，所以很容易得到 $P r (w, x, y, z) = P r (z ∣ y) P r (y ∣ x, w) P r (x, w) = P r (z ∣ y) P r (x, w, y)$
由因为 $P r (x, y, z, w) = P r (z ∣ y, x, w) P r (x, y, w)$
所以 $P r (z ∣ y) = P r (z ∣ y, x, w)$
由贝叶斯公式很容易因式分解得到 $P r (w, x, y, z) = P r (z ∣ x, y, w) P r (y ∣ x, w) P r (x ∣ w) P r (w)$
所以可以得到 $P r (w, x, y, z) = P r (z ∣ y) P r (y ∣ x, w) P r (x ∣ w) P r (w)$
由上面的知识很容易得到 $P r (x) = P r (x ∣ w)$ 所以 $x$ 和 $w$ 是独立的，类似也可以证明 $w$ 和 $x$ 是独立的，所以二者是相互独立的，证毕。
证明期望的四个公式 $E [k] = k$ $E [k f [x]] = k E [f [x]]$ $E [f [x] + g [x]] = E [f [x]] + E [g [x]]$ $E [f [x] g [y]] = E [f [x]] E [g [y]] （ x, y 相互独立）$
第一个公式
$\begin{aligned}E[k]&=\int kPr(x)dx\\&=k\int Pr(x)dx\\&=k\end{aligned}$
第二个公式
$\begin{aligned}E[kf[x]]&=\int kf[x]Pr(x)dx\\&=k\int f[x]Pr(x)dx\\&=kE[f[x]]\end{aligned}$
第三个公式
$\begin{aligned}E[f[x]+g[x]]&=\int (f[x]+g[x])Pr(x)dx\\&=\int (f[x]Pr(x)+g[x]Pr(x))dx\\&=\int f[x]Pr(x)dx+\int g[x]Pr(x)dx\\&=E[f[x]]+E[g[x]]\end{aligned}$
第四个公式
$\begin{aligned}E[f[x]\cdot g[y]]&=\int \int f[x]\cdot g[y] \underbrace{Pr(x,y)}_{Pr(x,y)=Pr(x)Pr(y),x,y是相互独立}dxdy\\&=\int \int f[x]\cdot g[y] Pr(x)Pr(y)dxdy\\&=\int f[x]Pr(x)dx \int g[y]Pr(y)dy\\&=E[f[x]]E[g[y]]\end{aligned}$
利用上一个题目的公式证明以下关系式，即趋近于零的二阶矩和关于均值的二阶矩(方差)之间的关系： $E[(x-\mu)^2]=E[x^2]-E[x]E[x]$
证明
$\begin{aligned}E[(x-\mu)^2]&=\underbrace {E[x^2-2\mu x+\mu^2]}_{E[f[x]+g[x]]=E[f[x]]+E[g[x]]}\\&=E[x^2]-2\underbrace {E[\mu x]}_{E[kf[x]]=kE[f[x]]}+\underbrace {E[\mu^2]}_{E[k]=k}\\&=E[x^2]-2\underbrace{\mu}_{\mu=E[x]} E[x]+(\underbrace{\mu}_{\mu=E[x]})^2&=E[x^2]-2E[x]E[x]+E[x]E[x]\\&=E[x^2]-E[x]E[x]\end{aligned}$