概率模型

本文讨论的是信号处理中用到的概率模型(Probabilistic Models),主要目的是为了了解概率模型相关的基础概念,以供后续文章展开更为深入的讨论。

 

符号定义

首先规定概率模型所采用的符号。概率模型所设计的基础符号分为三个部分:

1. Sample Space  样本空间,也就是一个概率模型的总空间,用$\Psi$表示,采样空间内包含了所有可能的outcome(输出)$\psi$。每一次experiment(实验)能产生一个输出

2. Event Algebra  事件代数,通常简称为event(事件),表示的是采样空间内某些输出的集合。如果在实验中产生的一个输出属于某个事件,我们可以理解为发生了该事件。按照这种说法,$\Psi$是一个必然事件,$\varnothing$是一个不可能事件。

3. Probability Measure  概率测度。对于事件A,其概率为$P(A)$。

    (a) $P(A)\geq 0$

    (b) $P(\Psi) = 1$

    (c) $A\cap B =\varnothing \Leftrightarrow P(A\cup B)=P(A)+P(B)$

画图能使得概率模型更容易理解

ProbabilityModel

 

 

贝叶斯规则Bayes'Rule

贝叶斯公式

有事件A与B,两者的概率分别为$P(A)$与$P(B)$,它们在样本空间有如下表示

image

在事件B已发生的情况下,事件A出现的概率记为$P(A|B)$。对照上方的样本空间,可以发现事件$P(A|B)$就是事件$A\cap B$占事件B的比率。

$P(A|B) \triangleq \frac{P(A\cap B)}{P(B)}, \qquad P(B)\neq 0$

反过来有:

$P(A\cap B) = P(A|B)P(B)$

同理也能得到

$P(A\cap B) = P(B|A)P(A)$

把上面两个式子组合起来就能得到贝叶斯的一个公式

$P(B|A) = \frac{P(A|B)P(B)}{P(A)}$

 

独立事件

如果事件A与B的概率满足以下条件,我们就认为两者相互独立

$P(A|B) = P(A)\qquad or\qquad P(A\cap B) = P(A)P(B)$

即事件A在整个样本空间内的概率为$P(A)$,事件A在样本空间$B$内的概率仍然是$P(A)$。

image

 

 

随机变量Random Variables

由于输出$\psi$只是集合$\Psi$中的元素,为了方便进行数学上的分析,我们需要把$\psi$映射到实数$X(\psi)$,该实数被称为随机变量,通常称为随机变量$X$,请注意这是一个变量

RandomVariables

Outcome(输出)有可能是离散的,如抛一次硬币只能是正面或者反面;也有可能是连续的,如在记录某时刻的温度时,温度可以是某个温度区间内的任何值。因此有以下随机变量

离散随机变量(Discrete Random Variable)

$X=\left\{\begin{matrix}1, & heads\\ 0, & tails \end{matrix} \right.$

连续随机变量(Continuous Random Variable)

$X={the\ exact\ temprature\ detected\ at\ 12:00\ am}$

上面分别是离散以及连续输出到随机变量X的映射,X表示的是一个可能的取值,如上面的离散的情况取值可能为0或者1,而连续的情况取值则可能为区间上的任意一个值。

 

 

概率的相关函数

累计分布函数Cumulative Distribution Functions

累计分布函数(CDF)的输出是从$-\infty$到变量$x$的累计概率

$F_X(x) = P(X\leq x)$

因此有

$P(a<X\leq b) = F_X(b) – F_X(a)$

CDF在负无穷端的值为$F_X(-\infty) = 0$,在正无穷端的值为$F_X(\infty) = 1$。

 

CDF

如上图是CDF的一个例子。在点$x_1$处的概率为$P(X=x_1) = F_X(x_1)-F_X(x_1-)$,由此可见上图中$P(X=0)=1$。

 

结合贝叶斯公式,有

$F_{X|L}(x|L_i) = P(X\leq x|L=L_i) = \frac{P(X\leq x, L=L_i)}{P(L=L_i)}$

$F_{X|L}(x|L_i)$表示的是已知$L=L_i$的情况下的CDF。

 

概率密度函数Probability Density Functions

对CDF求导就可以得到概率密度函数PDF。

$f_X(x) = \frac{dF_X(x)}{dx}$

PDF不可能输出负值,因为CDF是一个非递减的函数。如果CDF像上图一样非连续,那么PDF在非连续点处的值就是一个脉冲(Dirac impulse)。

image

按照PDF的定义,有

$P(a<X\leq b) =F_X(x)\Big|_a^b =  \displaystyle{\int_a^bf_X(x)dx}$

在$x$点处的的概率为

$P(x)  = \displaystyle{\int_{x-dx}^{x}f_X(x)dx}\approx f_X(x)dx$

 

概率质量函数Probability Mass Function

如果概率模型的随机变量$X$是离散的,该概率模型的PDF将会如上图一样,只会在特定的值上出现脉冲,其余的值为0。这种情况用PMF就能表示,PMF是一个离散函数,只需要记录某点上的概率

$pX(x_j) = P(X=x_j)$

上面的例子用PMF来表示如下图

image

 

 

联合分布随机变量Jointly Distributed Random Variables

定义

概率模型通常都有多个随机变量,如下是有两个随机变量X与Y的概率模型的CDF

$F_{X,Y}(x,y) = P(X\leq x, Y\leq y)$

对应的PDF为

$f_{X,Y}(x, y) = \frac{\partial^2 F_{X,Y}(x,y) }{\partial x\partial y}$

Gaussian3D

单边PDF $f_X(x)$的定义就是随机变量$X$的PDF,它跟联合密度函数$f_{X,Y}(x,y)$之间的关系是

$f_X(x) = \displaystyle{\int_{-\infty}^{\infty}f_{X,Y}(x,y)dy}$

同样,$f_Y(y)$也有这种关系。

 

概率表达

在点$(x,y)$上的概率为

$P(x, y) \approx f_{X,Y}(x,y)dxdy$

 

贝叶斯规则

在已知$Y=y$(事件B)的情况下,发生$X=x$(事件A)的概率为

$P(A|B) = P(X=x|Y=y)=F_{X|Y}(X=x|Y=y) $

同时又有

$P(A|B) = \frac{P(A\cap B)}{P(B)}=\frac{P(X=x, Y=y)}{P(Y=y)}=\frac{f_{X,Y}(x,y)dxdy}{f_Y(y)dy}$

如果我们假设随机变量$Y$已经确定$Y=y$,那么$P(X|Y=y)=F_{X|Y}(X|Y=y)$就是一个关于随机变量$X$的函数,该函数对$x$求导得到的是:已知$Y=y$的情况下,随机变量X的概率密度函数$f_{X|Y}(X|Y=y)$,有下面的式子

$f_{X|Y}(x|y) = \frac{dF_{X|Y}(X=x,Y=y)}{dx}=\frac{f_{X,Y}(x,y)dxdy}{f_Y(y)dydx} = \frac{f_{X,Y}(x,y)}{f_Y(y)}$

进一步推导还能得到

$\begin{align*}
P(B|A)
&= \frac{f_{X,Y}(x,y)dxdy}{f_X(x)dx}\\
&=\frac{f_{X,Y}(x,y)dy}{f_X(x)}\\
&=\frac{f_{X|Y}(x|y) f_Y(y)dy}{f_X(x)}\\
&=\frac{f_{X|Y}(x|y)P(Y=y)}{f_X(x)}\\
&=\frac{f_{X|Y}(x|y)P(B)}{f_X(x)}
\end{align*}$

 

独立事件

如果包含随机变量$X$与$Y$的联合分布的CDF或者PDF满足如下条件,则$X$与$Y$所属的事件相互独立

$f_{X,Y}(x,y) = f_X(x)f_Y(y)$

$F_{X,Y}(x,y) = F_X(x)F_Y(y)$

 

 

期望(Expectations)、矩(Moments)以及方差(Variance)

期望

The expectation — also termed the expected or mean or average value, or the first-moment — of the real-valued random variable X is denoted by $E[X]$ or $\overline{X}$ or $\mu_X$, and defined as

$E[X] = \overline{X} = \mu_X = \displaystyle{\int_{\infty}^{\infty}xf_X(x)dx}$

期望具有线性性质

$\begin{align*}E[X+Y] &=\int_{-\infty}^{\infty}xf_{X+Y}(x)dx\\
&=\int_{-\infty}^{\infty}x\Big(f_X(x)+f_Y(x)\Big)dx\\
&=\int_{-\infty}^{\infty}xf_X(x)dx+\int_{-\infty}^{\infty}xf_Y(x)dx\\
&=E[X]+E[Y]
\end{align*}$

 

方差

The variance or centered second-moment of the random variable $X$ is denoted by $\sigma^2$ and defined as

$\begin{align*}\sigma^2 &=E[(X-\mu_X)^2]\\
&= E[X^2-2X\mu_X+\mu_X^2]\\
&= E[X^2]-2\mu_XE[X]+\mu_X^2\\
&= E[X^2]-2\mu_X^2+\mu_X^2\\
&= E[X^2]-\mu_X^2
\end{align*}$

We refer to $E[X2]$ as the second-moment of $X$.

 
贝叶斯规则

我们这里主要是为了推导得到一条公式

$\color{red}{E[X] = E_{Y}[E_{X|Y}[X|Y]]}$

其中$E_{X|Y}[X|Y]$,即$E[X|Y]$表示是已知随机变量$Y$所代表的事件发生的情况下,随机变量$X$的期望值。按照期望的定义有如下公式

$\begin{align*}
E[X|Y] &= \int_{-\infty}^{\infty}xf_{X|Y}(x|y)dx\\
&=\int_{-\infty}^{\infty}x\frac{f_{X,Y}(x,y)}{f_Y(y)}dx\\
&=g(y)
\end{align*}$

因此$E[X|Y]$是一个以$y$为变量的函数,我们可以认为是:在$Y=y$的前提下,随机变量$X$的期望值是与$y$有关的。

 

证明

$\begin{align*}
E_{Y}[E_{X|Y}[X|Y]] &=\int_{-\infty}^{\infty}g(y)f_Y(y)dy\\
&= \int_{-\infty}^{\infty}\left\{\int_{-\infty}^{\infty}xf_{X|Y}(x|y)dx\right\}f_Y(y)dy\\
&=\int_{-\infty}^{\infty}\left\{\int_{-\infty}^{\infty}x\frac{f_{X,Y}(x,y)}{f_Y(y)}dx\right\}f_Y(y)dy\\
&=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}xf_{X,Y}(x,y)dxdy\\
&=\int_{-\infty}^{\infty}x\int_{-\infty}^{\infty}f_{X,Y}(x,y)dydx\\
&=\int_{-\infty}^{\infty}xf_X(x)dx\\
&=E[X]
\end{align*}$

这说明我们在不知道$f_X(x)$的情况下,通过$f_Y(y)$以及$g(y)$就能得到随机变量$X$的期望值。

 

独立事件

有两个随机变量分别为$Y,Z$,令$X=h(Y,Z)$,那么$X$也是一个随机变量,其期望为$E[X]$。现假设$h(y,z) = g(y)\ell(z)$,并且$Y$与$Z$相互独立,因此有

$\begin{align*}
E[X]&= E[g(y)\ell(z)] \\ &=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}g(y)\ell(z)f_{Y,Z}(y,z)dydz\\
&=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}g(y)\ell(z)f_{Y}(y)f_{Z}(z)dydz\\
&=\int_{-\infty}^{\infty}g(y)f_Y(y)dy\int_{-\infty}^{\infty}\ell(z)f_Z(z)dz\\
&=E[g(y)]E[\ell(z)]
\end{align*}$

 

 

相关性与协方差 correlation and covariance

在对随机变量进行处理时,很多情况下都无法知道该随机变量的PDF,此时我们只能通过expectation以及variance对随机变量进行描述,expectation代表的是随机变量的location,即随机变量的中心点;variance代表的是随机变量的spread,即随机变量的扩散程度。这两个值我们能通过对随机变量的反复实验然后求得。

而对于联合分布的随机变量$(X,Y)$,我们能得到其location为$(E[X],E[Y])$,不过spread就比较难表达了,因为$\sigma_X$以及$\sigma_Y$都只是单个随机变量的方差,而$X$与$Y$之间也有可能存在某种相关关系,因此联合分布的spread不应该把随机变量分开进行单独讨论。

 

联合随机变量的location与spread

为了表达联合分布的spread,下面我们假设有一个随机变量$Z$,有

$Z=\alpha X + \beta Y$

其中$\alpha$与$\beta$分别为随机变量$X$与$Y$的系数,可以选任意常数。上面关于随机变量$Z$的式子也能看作是一条关于$X$与$Y$的直线,当选取固定的$Z$后,在$X,Y$平面上就能得到一条直线,而通过改变$Z$就能覆盖整个$X,Y$平面。

Gaussian3D

经过该直线并垂直于XY平面的平面与联合PDF曲面相交所得的曲线,展示的就是当$Z$取某个固定值时,随机变量$X$与$Y$的取值的概率。对该曲线进行积分能得到$Z$取该固定值的概率。比如说

$P_Z(z=0) = \displaystyle{\int_{\alpha x+\beta y=0}f_{X,Y}(x,y)dxdy}$

不过这并不是我们要讨论的重点。

 

对于随机变量$Z$,有expectation为

$E[Z] = E[\alpha X + \beta Y] = \alpha E[X] + \beta E[Y]$

有variance为

$\begin{align*}
\sigma_Z^2 &= E[(Z-E[Z])^2]\\
&=E[Z^2-2E[Z]Z+(E[Z])^2]\\
&=E[Z^2]-2(E[Z])^2+(E[Z])^2\\
&=E[Z^2]-(E[Z])^2\\
&=E[(\alpha X+\beta Y)^2]-(\alpha E[X]+\beta E[Y])^2\\
&=E[\alpha^2X^2+2\alpha\beta XY+\beta^2Y^2]-\Big\{\alpha^2(E[X])^2+\beta^2(E[Y])^2+2\alpha\beta E[X]E[Y]\Big\}\\
&=\alpha^2 E[X^2]+2\alpha\beta E[XY]+\beta^2E[Y^2]-\alpha^2(E[X])^2-2\alpha\beta E[x]E[Y]-\beta^2(E[Y])^2\\
&=\alpha^2\Big\{E[X^2]-(E[X])^2\Big\}+\beta^2\Big\{E[Y^2]-(E[Y])^2\Big\}+2\alpha\beta\Big\{E[XY]-E[X]E[Y]\Big\}\\
&=\alpha^2\Big\{E[(X-E[X])^2]\Big\}+\beta^2\Big\{E[(Y-E[Y])^2]\Big\}+2\alpha\beta\Big\{E[(X-E[X])(Y-E[Y])]\Big\}\\
&=\alpha^2\sigma_X^2+\beta^2\sigma_Y^2+2\alpha\beta\sigma_{X,Y} \qquad letting\ \sigma_{X,Y}=E[(X-E[X])(Y-E[Y])]
\end{align*}$

其中$\sigma_{X,Y}$被称为covariance,记为$C_{X,Y}$或者$cov(X,Y)$有

$\color{red}{\sigma_{X,Y} =C_{X,Y}= E[(X-E[X])(Y-E[Y])] = E[XY]-E[X]E[Y]}$

$E[XY]$被称为correlation,记为$R_{X,Y}$。

$\color{red}{R_{X,Y} = E[XY]}$

根据前面的推导,只要我们知道$\sigma_X^2,\sigma_Y^2,\sigma_{X,Y}$的值,就能得到联合随机变量的spread。这其中只有$\sigma_{X,Y}$是新出现的概念。另外,从前面的推导中我们又能得知$\sigma_{X,Y}$可以通过$R_{X,Y}$计算得到。

 

相关系数correlation coefficient $\rho$
$\rho$的定义

前面已经得到随机变量$Z$的variance为

$\sigma_Z^2 = \alpha^2\sigma_X^2+\beta^2\sigma_Y^2+2\alpha\beta\sigma_{X,Y}$

我们这里把$\sigma_Z^2$作为纵轴,$\alpha$作为横轴,其余参数当成常量,得到一个一元二次方程。

correlation_coeff

由于variance必定大于0,因此有

$\frac{-(b^2-4ac)}{4a}=\frac{-[(2\beta\sigma_{X,Y})^2-4\sigma_X^2 \beta^2\sigma_Y^2]}{4\beta^2\sigma_X^2}=\frac{\beta^2\sigma_X^2\sigma_Y^2-\beta^2\sigma_{X,Y}^2}{\sigma_X^2}\geq 0$

整理可得到

$\color{red}{|\rho| = \left|\frac{\sigma_{X,Y}}{\sigma_X \sigma_Y}\right|\leq 1}$

$\rho$就是correlation coefficient,虽然我们把它叫做correlation coefficient,不过从上面的式子看来,$\rho$跟covariance的关系更密切。

 

$\rho$其实就相当于对covariance进行了标准化。

随机变量标准化后的随机变量的expectation为0,variance为1,即

$V = \frac{X-\mu_X}{\sigma_X},\qquad W = \frac{Y=\mu_X}{\sigma_Y}$

expectation以及variance的变化如下

$E[V] = E\left[\frac{X-\mu_X}{\sigma_X}\right] = \frac{E[X]-\mu_X}{\sigma_X}=0$

$\sigma_V^2=E[(V-E[V])^2]=E[V^2]=E\left[\frac{(X-\mu_X)^2}{\sigma_X^2}\right]=E\left[\frac{\sigma_X^2}{\sigma_X^2} \right ]=1$

correlation coefficient的变化如下

$\begin{align*}\sigma_{V,W}&=E[VW]-E[V]E[W]=E[VW]\\
&=E\left[\frac{X-\mu_X}{\sigma_X}\cdot\frac{Y-\mu_Y}{\sigma_Y}\right]\\
&=E\left[\frac{XY-X\mu_Y-Y\mu_X+\mu_X\mu_Y}{\sigma_X\sigma_Y}\right]\\
&=\frac{E[XY]-E[X]E[Y]}{\sigma_X\sigma_Y}\\
&=\frac{\sigma_{X,Y}}{\sigma_X\sigma_Y}\end{align*}$

这也证明了即使随机变量加上或者乘以一个常数,这并不会改变其correlation coefficient。

 

$\rho$的实际意义

我们容易知道correlation的值$E[XY]$如果大于0,则表明$X$与$Y$倾向于有相同的符号;如果correlation的值小于0,则表明$X$与$Y$倾向于有相反的符号。那么对于$\sigma_{X,Y} = E[(X-\mu_X)(Y-\mu_Y)]$,如果大于0,则表明$X-\mu_X$与$Y-\mu_Y$倾向于有相同的符号,当$X=Y$时,$\sigma_{X,X}=\sigma_X^2$,反之亦然。

同理,$\rho$作为covariance的标准化的值

  1. 如果$\rho>0$则表明$X-\mu_X$与$Y-\mu_Y$倾向于有相同的符号
  2. 如果$\rho$越接近1,$X$与$Y$之间会有更紧密的关系(正相关)
  3. 反之,如果$\rho$越接近-1,$X$与$Y$之间的关系趋于相反(负相关)
  4. 如果$\rho=0$,则有$\sigma_{X,Y}=0$,$E[XY]=E[X]E[Y]$,表明$X$与$Y$相互独立

 

 

相关性的向量空间分析

从随机变量到向量空间的转换规则

我们可以把随机变量看作向量,把correlation看作向量的内积,内积用尖括号来表示。因此有

$<\textbf{X}, \textbf{Y}> = E[XY] = R_{X,Y}$

内积满足交换律以及分配律

$<\textbf{X},\textbf{Y}> = <\textbf{Y}, \textbf{X}>$

$<\textbf{X},a_1 \textbf{Y}_1+a_2 \textbf{Y}_2>=a_1<\textbf{X},\textbf{Y}_1>+a_2<\textbf{X},\textbf{Y}_2>$

如果两个向量正交,那么他们的内积为0

$<\textbf{X},\textbf{Y}>=E[XY]=0$

向量的长度,也就是向量的模为

$\left\|\textbf{X}\right\|=\sqrt{<\textbf{X},\textbf{X}>}=\sqrt{E[X^2]}$

 
实用的向量空间

下面我们令向量$\widetilde{\textbf{X}}$以及$\widetilde{\textbf{Y}}$分别为

$\widetilde{\textbf{X}}=X-\mu_X ,\qquad \widetilde{\textbf{Y}}=Y-\mu_Y$

这两个向量的模分别为

$||\widetilde{\textbf{X}}||=\sqrt{E[(X-\mu_X)^2]}=\sigma_X,\qquad ||\widetilde{\textbf{Y}}||=\sqrt{E[(Y-\mu_Y)^2]}=\sigma_Y$

那么这两个向量的内积就是

$<\widetilde{\textbf{X}}, \widetilde{\textbf{Y}}>=E[(X-\mu_X)(Y-\mu_Y)]=\sigma_{X,Y}$

按照向量的定义,内积与模之间有如下关系

$<\widetilde{\textbf{X}},\widetilde{\textbf{Y}}>=||\widetilde{\textbf{X}}|| \cdot||\widetilde{\textbf{Y}}||\cdot cos(\theta)$

$\sigma_{X,Y}=\sigma_X \sigma_Y cos(\theta)$

其中$\theta$为向量$\widetilde{\textbf{X}}$与向量$\widetilde{\textbf{Y}}$之间的夹角。根据前面已得到的结论,我们得知$\rho=cos(\theta)$,而又由于$\rho$满足$-1\leq \rho \leq 1$,因此把随机变量推广到向量空间的这种做法正好合适。

image

在该这里假设的向量空间中,$\omega_{X,Y}=0$表明$\widetilde{\textbf{X}}与向量\widetilde{\textbf{Y}}$正交。

 

Reference:

Alan V. Oppenheim: Signals, Systems and Inference, Chapter 7: Probabilistic Models

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Statistical learning refers to a set of tools for modeling and understanding complex datasets. It is a recently developed area in statistics and blends with parallel developments in computer science and, in particular, machine learning. The field encompasses many methods such as the lasso and sparse regression, classification and regression trees, and boosting and support vector machines. With the explosion of “Big Data” problems, statistical learning has be- come a very hot field in many scientific areas as well as marketing, finance, and other business disciplines. People with statistical learning skills are in high demand. One of the first books in this area—The Elements of Statistical Learning (ESL) (Hastie, Tibshirani, and Friedman)—was published in 2001, with a second edition in 2009. ESL has become a popular text not only in statis- tics but also in related fields. One of the reasons for ESL’s popularity is its relatively accessible style. But ESL is intended for individuals with ad- vanced training in the mathematical sciences. An Introduction to Statistical Learning (ISL) arose from the perceived need for a broader and less tech- nical treatment of these topics. In this new book, we cover many of the same topics as ESL, but we concentrate more on the applications of the methods and less on the mathematical details. We have created labs illus- trating how to implement each of the statistical learning methods using the popular statistical software package R . These labs provide the reader with valuable hands-on experience.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值