数学与编程——概率论与数理统计

最新推荐文章于 2024-08-19 09:09:45 发布

五道口纳什

最新推荐文章于 2024-08-19 09:09:45 发布

阅读量3.4k

点赞数

分类专栏： math 文章标签：数学概率论 pmf pdf

本文链接：https://blog.csdn.net/lanchunhui/article/details/49799405

版权

math 专栏收录该内容

161 篇文章 8 订阅

订阅专栏

$D(x)=E\{[x-E(x)]^2\}$ ：相对于平均数差距的平方的期望；
数理统计一词的理解：mathematical stats，也即用数学的观点审视统计，为什么没有数理概率，因为概率本身即为数学，而对于统计，random variable 的性质并不全然了解，所以数理统计在一些书里又被称作：stats in inference（统计推论，已知 ⇒ 未知）
- 概率与统计的中心问题，都是random variable，

PMF与PDF

PMF：probability mass function，概率质量函数，是离散型随机变量在各特定取值上的概率。与概率密度函数（PDF：probability density function）的不同之处在于：概率质量函数是对离散型随机变量定义的，本身代表该值的概率；概率密度函数是针对连续型随机变量定义的，本身不是概率（连续型随机变量单点测度为0），只有在对连续随机变量的pdf在某一给定的区间内进行积分才是概率。

notation

假设 $X$ 是一个定义在可数样本空间 $S$ 上的离散型随机变量 $S\subseteq R$ ，则其概率质量函数PMF为：

f X (x) = {P r (X = x), 0, x \in S x \in R ∖ S

$\begin{equation} f_X(x)= \left \{ \begin{array}{ll} Pr(X=x), & x\in S \\ 0, & x\in \mathbb R\setminus S \end{array} \right. \end{equation}$

注意这在所有实数上，包括那些 $X$ 不可能等于的实数值上，都定义了pmf，只不过在这些 $X$ 不可能取的实数值上， $f_X(x)$ 取值为0( $x\in \mathbb R\setminus S, Pr(X=x)=0$ )。

离散型随机变量概率质量函数（pmf）的不连续性决定了其累积分布函数（cdf）也不连续。

共轭先验（conjugate prior）

所谓共轭（conjugate），描述刻画的是两者之间的关系，单独的事物不构成共轭，举个通俗的例子，兄弟这一概念，只能是两者才能构成兄弟。所以，我们讲这两个人是兄弟关系，A是B的兄弟，这两个分布成共轭分布关系，A是B的共轭分布。

p (θ | X) = p ( θ ) p ( X | θ ) p ( x )

$p(\theta|X)=\frac{p(\theta)p(X|\theta)}{p(x)}$

$p(X|\theta)$ ：似然（likelihood）
$p(\theta)$ ：先验（prior）
$p(X)$ ：归一化常数（normalizing constant）

我们定义：如果先验分布（ $p(\theta)$ ）和似然函数（ $p(X|\theta)$ ）可以使得先验分布（ $p(\theta)$ ）和后验分布（ $p(\theta|X)$ ）有相同的形式（如，Beta(a+k, b+n-k)=Beta(a, b)*binom(n, k)），那么就称先验分布与似然函数是共轭的（成Beta分布与二项分布是共轭的）。

几个常见的先验分布与其共轭分布

先验分布	共轭分布
伯努利分布	$\textrm{beta distribution}$
$\textrm{Multinomial}$	$\textrm{Dirichlet Distribution}$
$\textrm{Gaussian, Given variance, mean unknown}$	$\textrm{Gaussian Distribution}$
$\textrm{Gaussian, Given mean, variance unknown}$	$\textrm{Gamma Distribution}$
$\textrm{Gaussian, both mean and variance unknown}$	$\textrm{Gaussian-Gamma Distribution}$

最大似然估计（MLE）

首先来看，大名鼎鼎的贝叶斯公式：

p (θ | X) = p ( θ ) p ( X | θ ) p ( X )

$p(\theta|X)=\frac{p(\theta)p(X|\theta)}{p(X)}$

可将 $\theta$ 看成欲估计的分布的参数， $X$ 表示样本， $p(X|\theta)$ 则表示似然。

现给定样本集 $\mathcal{D}=\{x_1,x_2,\ldots,x_N\}$ ，似然函数为：

p (D | θ) = \prod n = 1 N p (x n | θ)

$p(\mathcal{D}|\theta)=\prod_{n=1}^Np(x_n|\theta)$
为便于计算，再将其转换为对数似然函数形式：

ln p (D | θ) = \sum n = 1 N ln p (x n | θ)

$\ln p(\mathcal{D}|\theta)=\sum_{n=1}^N\ln p(x_n|\theta)$

我们不妨以伯努利分布为例，利用最大似然估计的方式计算其分布的参数（ $p$ ），伯努利分布其概率密度函数（pdf）为：

f X (x) = p x (1 - p) 1 - x = ⎧ ⎩ ⎨ ⎪ ⎪ p, q \equiv 1 - p, 0, x = 1, x = 0, o t h e r w i s e

$f_X(x)=p^x(1-p)^{1-x}=\left \{ \begin{array}{ll} p,&\mathrm{x=1},\\ q\equiv1-p ,&\mathrm{x=0},\\ 0,&\mathrm{otherwise} \end{array} \right.$

整个样本集的对数似然函数为：

ln p (D | θ) = \sum n = 1 N ln p (x n | θ) = \sum n = 1 N ln (θ x n (1 - θ) 1 - x n) = \sum n = 1 N x n ln θ + (1 - x n) ln (1 - θ)

$\ln p(\mathcal{D}|\theta)=\sum_{n=1}^N\ln p(x_n|\theta)=\sum_{n=1}^N\ln (\theta^{x_n}(1-\theta)^{1-x_n})=\sum_{n=1}^Nx_n\ln\theta+(1-x_n)\ln(1-\theta)$

等式两边对 $\theta$ 求导：

\partial ln ( D | θ ) \partial θ = \sum N n = 1 x n θ - N 1 - θ + \sum N n = 1 x n 1 - θ

$\frac{\partial \ln(\mathcal{D}|\theta)}{\partial \theta}=\frac{\sum_{n=1}^Nx_n}{\theta}-\frac{N}{1-\theta}+\frac{\sum_{n=1}^Nx_n}{1-\theta}$

令其为0，得：

θ m l = \sum N n = 1 x n N

$\theta_{ml}=\frac{\sum_{n=1}^Nx_n}{N}$

Beta分布

f (μ | a, b) = Γ ( a + b ) Γ ( a ) Γ ( b ) μ a - 1 (1 - μ) b - 1 = 1 B ( a , b ) μ a - 1 (1 - μ) b - 1

$f(\mu|a, b)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}=\frac1{B(a,b)}\mu^{a-1}(1-\mu)^{b-1}$

$Beta$ 分布的峰值在 $\frac{a-1}{b+a-2}$ 处取得。其中 $\Gamma(x)\equiv\int_0^\infty u^{x-1}e^{-u}du$ 有如下性质：

Γ (x + 1) = x Γ (x) Γ (1) = 1 a n d Γ (n + 1) = n!

$\Gamma(x+1)=x\Gamma(x)\\ \Gamma(1)=1\quad and \quad \Gamma(n+1)=n!$
我们来看当先验分布为

Beta $Beta$ 分布时的后验分布：

p (θ) = 1 B ( a , b ) θ a - 1 (1 - θ) b - 1 p (X | θ) = (n k) θ k (1 - θ) n - k p (θ | X) = 1 B ( a + k , b + n - k ) θ a + k - 1 (1 - θ) b + n - k - 1

$p(\theta)=\frac1{B(a,b)}\theta^{a-1}(1-\theta)^{b-1}\\ p(X|\theta)=\binom n k \theta^k(1-\theta)^{n-k}\\ p(\theta|X)=\frac1{B(a+k,b+n-k)}\theta^{a+k-1}(1-\theta)^{b+n-k-1}$

对应于python中的math.gamma()及matlab中的gamma()函数（matlab中beta(a, b)=gamma(a)gamma(b)/gamma(a+b)）。

条件概率（conditional probability）

P (X | Y)

$P(X|Y)$
读作：

P $P$ of

X $X$ given

Y $Y$ ，下划线读作given

X $X$ ：所关心事件

Y $Y$ ：条件（观察到的，已发生的事件），conditional

条件概率的计算

仍然从样本空间（sample space）的角度出发。此时我们需要定义新的样本空间（给定条件之下的样本空间）。所以，所谓条件（conditional），本质是对样本空间的进一步收缩，或者叫求其子空间。

比如一个人答题，有 $A,B,C,D$ 四个选项，在答题者对题目一无所知的情况下，他答对的概率自然就是 $\frac14$ ，而是如果具备一定的知识，排除了 $A,C$ 两个错误选项，此时他答对的概率简单计算就增加到了 $\frac12$ 。

本质是样本空间从 $S=\{A, B, C, D\}$ ，变为了 $S'=\{B, D\}$ 。
新样本空间下 $P(A|排除A/C)=0,P(C|排除A/C)=0$ ，归纳出来，也即某实验结果（outcome， $o_i$ ）与某条件 $Y$ 不相交，则：

P (o i | Y) = 0

$P(o_i|Y)=0$

最后我们得到条件概率的计算公式：

$P (o i | Y) = P ( o i ) P ( o 1 ) + P ( o 2 ) + \dots + P ( o n ) = P ( o i ) P ( Y ) Y = {o 1, o 2, \dots, o n}$ $P(o_i|Y)=\frac{P(o_i)}{P(o_1)+P(o_2)+\cdots+P(o_n)}=\frac{P(o_i)}{P(Y)}\\ Y=\{o_1,o_2,\ldots,o_n\}$

考虑某事件 $X=\{o_1, o_2, q_1, q_2\}$ ，已知条件 $Y=\{o_1,o_2,o_3\}$ 发生了，则：

$P (X | Y) = P (o 1 | Y) + P (o 2 | Y) + 0 + 0 = P ( o 1 ) P ( Y ) + P ( o 2 ) P ( Y ) = P ( X \cap Y ) P ( Y )$ $P(X|Y)=P(o_1|Y)+P(o_2|Y)+0+0=\frac {P(o_1)}{P(Y)}+\frac {P(o_2)}{P(Y)}=\frac{P(X\cap Y)}{P(Y)}$

条件概率与贝叶斯公式

条件概率：

$P (X | Y) = P ( X \cap Y ) P ( Y )$ $P(X|Y)=\frac{P(X\cap Y)}{P(Y)}$

贝叶斯公式：

$P (X | Y) = P ( X ) P ( Y | X ) P ( Y )$ $P(X|Y)=\frac{P(X)P(Y|X)}{P(Y)}$

其实是可从条件概率推导贝叶斯公式的：

$P (A | B) = P (B | A) = P (A | B) P (B) = = = P (B | A) = P ( A \cap B ) P ( B ) P ( A \cap B ) P ( A ) P ( A \cap B ) P ( B ) P (B) P (A \cap B) P (A) P (B | A) P ( A | B ) P ( B ) P ( A )$ $\begin{split} P(A|B)=&\frac{P(A\cap B)}{P(B)}\\ P(B|A)=&\frac{P(A\cap B)}{P(A)}\\ P(A|B)P(B)=&\frac{P(A\cap B)}{P(B)}P(B)\\ =&P(A\cap B)\\ =&P(A)P(B|A)\\ P(B|A)=&\frac{P(A|B)P(B)}{P(A)} \end{split}$

证明： $P(B,p|D)=P(B|p,D)P(p|D)$

$P (B, p | D) = = = = P ( B , p , D ) P ( D ) P ( B | p , D ) P ( p , D ) P ( D ) P (B | p, D) P ( p , D ) P ( D ) P (B | p, D) P (p | D)$ $\begin{split} P(B,p|D)=&\frac{P(B, p, D)}{P(D)}\\ =&\frac{P(B|p, D)P(p, D)}{P(D)}\\ =&P(B|p,D)\frac{P(p,D)}{P(D)}\\ =&P(B|p,D)P(p|D) \end{split}$

References

[1] 概率质量函数