本系列为《模式识别与机器学习》的读书笔记。
一, 概率论
1,离散型随机变量概率
假设随机变量 X X X 可以取任意 的 x i x_i xi ,其中 i = 1 , … . , M i = 1, \dots. , M i=1,….,M ,并且随机变量 Y Y Y 可以取任意的 y j y_j yj ,其中 j = 1 , … , L j = 1,\dots , L j=1,…,L。考虑 N N N 次试验,其中我们对 X X X 和 Y Y Y 都进⾏取样, 把 X = x i X = x_i X=xi 且 Y = y j Y = y_j Y=yj 的试验的数量记作 n i j n_{ij} nij ,并且,把 X X X 取值 x i x_i xi (与 Y Y Y 的取值⽆关)的试验的数量记作 c i c_i ci ,类似地,把 Y Y Y 取值 y j y_j yj 的试验的数量记作 r j r_j rj 。
X X X 取值 x i x_i xi 且 Y Y Y 取值 y j y_j yj 的概率被记作 p ( X = x i , Y = y j ) p(X = x_i , Y = y_j ) p(X=xi,Y=yj), 被称为 X = x i X = x_i X=xi 和 Y = y j Y = y_j Y=yj 的联合概率 (joint probability
)。它的计算⽅法为落在单元格 i , j i, j i,j 的点的数量与点的总数的⽐值,即:
p ( X = x i , Y = y i ) = n i j N (1.5) p\left(X=x_{i}, Y=y_{i}\right)=\frac{n_{i j}}{N}\tag{1.5} p(X=xi,Y=yi)=Nnij(1.5)
如图1.15所示,联合概率的计算方法。
类似地, X X X 取值 x i x_i xi (与 Y Y Y 取值无关)的概率被记作 p ( X = x i ) p(X = x_i ) p(X=xi) ,也称为边缘概率(marginal probability
),计算⽅法为落在列 i i i上的点的数量与点的总数的⽐值,即:
p ( X = x i ) = c j N (1.6) p\left(X=x_{i}\right)=\frac{c_{j}}{N}\tag{1.6} p(X=xi)=Ncj(1.6)
由于图1.15中列 i i i 上的实例总数就是这列的所有单元格中实例的数量之和,即 c i = ∑ j n i j c_{i}=\sum_{j} n_{i j} ci=∑jnij,因此根据公式(1.5)和公式(1.6),我们可以得到概率的加和规则(sun rule
),即:
p ( X = x j ) = ∑ j = 1 L p ( X = x i , Y = y j ) (1.7) p\left(X=x_{j}\right)=\sum_{j=1}^{L} p\left(X=x_{i}, Y=y_{j}\right)\tag{1.7} p(X=xj)=j=1∑Lp(X=xi,Y=yj)(1.7)
如果我们只考虑那些 X = x i X = x_i X=xi 的实例, 那么这些实例中 Y = y j Y = y_j Y=yj 的实例所占的⽐例被写成 p ( Y = y j ∣ X = x i ) p(Y = y_j | X = x_i) p(Y=yj∣X=xi),被称为给定 X = x i X = x_i X=xi 的 Y = y j Y = y_j Y=yj 的条件概率(conditional probability
),其计算⽅式为:计算落在单元格 i , j i, j i,j 的点的数量列 i i i 的点的数量的⽐值,即:
p ( Y = y j ∣ X = x i ) = n i j c i (1.8) p\left(Y=y_{j} | X=x_{i}\right)=\frac{n_{i j}}{c_{i}}\tag{1.8} p(Y=yj∣X=xi)=cinij(1.8)
从公式(1.5)、公式(1.6)、公式(1.8)可以推导出概率的乘积规则(product rule
),即:
p ( X = x i , Y = y j ) = n i j N = n i j c i ⋅ c i N = p ( Y = y j ∣ X = x i ) p ( X = x i ) (1.9) p\left(X=x_{i}, Y=y_{j}\right)=\frac{n_{i j}}{N}=\frac{n_{i j}}{c_{i}} \cdot \frac{c_{i}}{N}=p\left(Y=y_{j} | X=x_{i}\right) p\left(X=x_{i}\right) \tag{1.9} p(X=xi,Y=yj)=Nnij=cinij⋅Nci=p(Y=yj∣X=xi)p(X=xi)(1.9)
根据乘积规则,以及对称性 p ( X , Y ) = p ( Y , X ) p(X, Y ) = p(Y, X) p(X,Y)=p(Y,X),我们⽴即得到了下⾯的两个条件概率之间的关系,称为贝叶斯定理(Bayes' theorem
)即:
p ( Y ∣ X ) = p ( X ∣ Y ) p ( Y ) p ( X ) (1.10) p(Y | X)=\frac{p(X | Y) p(Y)}{p(X)}\tag{1.10} p(Y∣X)=p(X)p(X∣Y)p(Y)(1.10)
贝叶斯定理(Bayes' theorem
),在模式识别和机器学习领域扮演者中⼼⾓⾊。使⽤加和规则,贝叶斯定理中的分母可以⽤出现在分⼦中的项表⽰,这样就可以把分母看作归一常数,即:
p ( X ) = ∑ Y p ( X ∣ Y ) p ( Y ) (1.11) p(X)=\sum_{Y} p(X|Y) p(Y)\tag{1.11} p(X)=Y∑p(X∣Y)p(Y)(1.11)
如果两个变量的联合分布可以分解成两个边缘分布的乘积,即 p ( X , Y ) = p ( X ) p ( Y ) p(X, Y) = p(X)p(Y) p(X,Y)=p(X)p(Y), 那么我们说 X X X 和 Y Y Y 相互独⽴(independent
)。
2,概率密度
如果⼀个实值变量x的概率 落在区间 ( x , x + δ x ) (x, x + \delta x) (x,x+δx) 的概率由 p ( x ) δ x p(x)\delta x p(x)δx 给出( δ x → 0 \delta x \to 0 δx→0), 那么 p ( x ) p(x) p(x) 叫做 x x x 的概率密度(probability density
)。 x x x 位于区间 ( a , b ) (a, b) (a,b) 的概率:
p ( x ∈ ( a , b ) ) = ∫ a b p ( x ) d x (1.12) p(x \in(a, b))=\int_{a}^{b} p(x) \mathrm{d}x\tag{1.12} p(x∈(a,b))=∫abp(x)dx(1.12)
如图1.16,概率密度函数。
由于概率是⾮负的,并且 x x x 的值⼀定位于实数轴上得某个位置,因此概率密度⼀定满⾜下⾯两个条件:
1) p ( x ) ≥ 0 p(x) \geq 0 p(x)≥0
- ∫ − ∞ ∞ p ( x ) d x = 1 \int_{-\infty}^{\infty} p(x) \mathrm{d} x=1 ∫−∞∞p(x)dx=1
在变量以⾮线性的形式变化的情况下,概率密度函数通过Jacobian
因⼦变换为与简单的函数不同的形式。
例如,假设我们考虑⼀个变量的变化 x = g ( y ) x = g(y) x=g(y), 那么函数 f ( x ) f(x) f(x) 就变成 了 f ~ ( y ) = f ( g ( y ) ) \tilde{f}(y)=f(g(y)) f~(y)=f(g(y))。现在让我们考虑⼀个概率密度函数 p x ( x ) p_x (x) px(x),它对应于⼀个关于新变量 y y y 的密度函数 p y ( y ) p_y (y) py(y),对于很⼩的 δ x \delta x δx 的值,落在区间 ( x , x + δ x ) (x, x + \delta x) (x,x+δx) 内的观测会被变换到区间 ( y , y + δ y ) (y, y + \delta y) (y,y+δy) 中。其中 p x ( x ) δ x ≃ p y ( y ) δ y p_{x}(x) \delta x \simeq p_{y}(y) \delta y px(x)δx≃py(y)δy ,因此有:
p y ( y ) = p x ( x ) ∣ d x d y ∣ = p x ( g ( y ) ) ∣ g ′ ( y ) ∣ (1.13) p_{y}(y)=p_{x}(x)\left|\frac{\mathrm{d} x}{\mathrm{d} y}\right|=p_{x}(g(y))\left|g^{\prime}(y)\right|\tag{1.13} py(y)=px(x)∣∣∣∣dydx∣∣∣∣=px(g(y))∣g′(y)∣(1.13)
位于区间 ( − ∞ , z ) (−\infty, z) (−∞,z) 的 x x x 的概率由累积分布函数(cumulative distribution function
)给出。 定义为:
P ( z ) = ∫ − ∞ z p ( x ) d x (1.14) P(z)=\int_{-\infty}^{z} p(x) \mathrm{d} x\tag{1.14} P(z)=∫−∞zp(x)dx(1.14)
如果我们有⼏个连续变量 x 1 , … , x D x_1 ,\dots , x_D x1,…,xD , 整体记作向量 x \boldsymbol{x} x, 那么我们可以定义联合概率密度 p ( x ) = p ( x 1 , … , x D ) p(\boldsymbol{x}) = p(x_1 ,\dots , x_D ) p(x)=p(x1,…,xD),使得 x \boldsymbol{x} x 落在包含点 x \boldsymbol{x} x 的⽆穷⼩体积 δ x \delta \boldsymbol{x} δx 的概率由 p ( x ) δ x p(\boldsymbol{x})\delta \boldsymbol{x} p(x)δx 给出。多变量概率密度必须满⾜以下条件:
1) p ( x ) ≥ 0 p(\boldsymbol{x}) \geq 0 p(x)≥0
- ∫ p ( x ) d x = 1 \int p(\boldsymbol{x}) \mathrm{d} \boldsymbol{x}=1 ∫p(x)dx=1
其中,积分必须在整个 x \boldsymbol{x} x 空间上进⾏。
3,期望和方差
在概率分布 p ( x ) p(x) p(x) 下,函数 f ( x ) f(x) f(x) 的平均值被称为 f ( x ) f(x) f(x) 的期望(expectation
),记作 E [ f ] \mathbb{E}[f] E[f]。对于⼀个离散变量,它的定义为:
E [ f ] = ∑ x p ( x ) f ( x ) (1.15) \mathbb{E}[f]=\sum_{x} p(x) f(x)\tag{1.15} E[f]=x∑p(x)f(x)(1.15)
在连续变量的情形下,期望以对应的概率密度的积分的形式表⽰为:
E [ f ] = ∫ p ( x ) f (