张志华-统计机器学习-随机变量

最新推荐文章于 2024-05-29 17:21:14 发布

Steve_Huxtable

最新推荐文章于 2024-05-29 17:21:14 发布

阅读量1.7k

点赞数 1

分类专栏：统计机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/hdyshr/article/details/108043568

版权

统计机器学习专栏收录该内容

5 篇文章 13 订阅

订阅专栏

文章目录

随机变量(r.v.)

随机变量(r.v.)

在上一节中，我们对随机变量的定义进行了介绍。从本节开始，简单地认为随机变量或随机向量可映射到某可测的事件集，随机变量的概率及该可测事件集的概率测度。

一. 离散型（discrete）和连续型随机变量

离散型随机变量具有概率质量函数（p.m.f.）：表示为：
$f_{X}(x) = P_{r}(X=x)$
连续型随机变量具有概率密度函数（p.d.f.）：表示为：
$\int_a^{b}f_{X}(x)dx = P_{r}(a<X < b)$
对于p.d.f有如下引理：
$\begin{aligned} &a. \quad P_{r}(X=x) = F_{X}(x) - F_{X}(x^{-}) \\ &b. \quad P_{r}(x<X \leqslant y) = F_{X}(y) - F_{X}(x) \\ &c. \quad P_{r}(X > x) = 1 - F_{X}(x) \\ &d. \quad If \, CDF \, is \, continuous, P_{r}(a<X \leqslant b) = P_{r}(a \leqslant X < b) = P_{r}(a<X < b) \end{aligned}$ 可见，pdf往往可由cdf求出，但需要关注cdf的连续型。
随机变量的几条有用性质：
设随机变量X具有累积概率函数（cdf） $F$ 。
- F的逆函数： $F^{-1}(q) = inf\{x: F(x) > q \} \quad (0 \leqslant q \leqslant 1)$ 为分位数函数（quantile function）。分位数函数是进行假设检验时需要掌握的重要概念，往往我们设定希望假设检验的一类错误的概率≤0.05后计算出的cutoff value就是某分布的百分之九十五分位数。之后，将计算出的检验统计量与cutoff value进行比较，即可判断是否有理由拒绝零假设。
- 众数（mode）：需要注意，无论是离散型随机变量和连续型随机变量都有众数，均是pmf和pdf取最大值时对应的x。
- pmf的值域一定处于[0, 1]区间内，而pdf则仅大于0。pdf甚至可以趋向正无穷。比如，在（0, 1/n）区间内的均匀分布随机变量，当 $\rightarrow + \infty$ ，则区间内的 $\, p \rightarrow + \infty$ 。
- 对于pdf显然有： $\int_{- \infty}^{+ \infty}f_{X}(x)dx = 1$ ，可变形为 $\int_{- \infty}^{+ \infty}dF(x) = 1 = \int_{- \infty}^{+ \infty} F(dx)$ 。上述变形具有意义，称为Laplace–Stielties transforms。首先，在数学意义上后者更加严谨，即明确限定pdf来源于cdf；其次，在求解随机变量的函数的概率密度时，将自变量替换为对应的函数，可方便记忆以及计算。
  下面对该条性质进行举例介绍：> 问题：设X~（0，1）区间内的均匀分布，求 $Y=X^2$ 的概率密度函数¹。

解：随机变量的函数显然为双射，则有：
$F_{Y}(y) = P(Y \leq y)=P(-\sqrt{y} \leq X \leq \sqrt{y})=P(0 \leq X \leq \sqrt{y})=F_{X}(\sqrt{y})$
因为随机变量函数在区间内连续，因此可直接求导：
$f_{Y}(y)=F_{Y}^{,}(y)=f_{X}(\sqrt{y})|\frac{dx}{dy}|$
以上代换的直观理解为，找到某处y对应的全部x，而后在各处x取微元进行加和，同时用Jacobian进行统一度量（metric）。比如注意的是，采用微元法时，在各个x处函数需保证连续型。

二. 均匀分布

均匀分布是最易理解的分布，即在区间A=[a, b]内，各处的概率密度相同。在 $A^c$ 内的概率测度均为0。

三. 两点分布/伯努利分布（Bernolli）

两点分布的概率密度函数为：
$f_{X}(x) = p^x (1-p)^(1-x) \qquad (x\in\{0, 1\})$ 两点分布即进行单次试验时，成功（x==1）的概率。

四. 二项式分布（Binomial）

扩展两点分布，进行n次伯努利试验，成功的次数k即符合二项式分布：
$f(x)=\dbinom{n}{k}p^x (1-p)^{(n-x)} \qquad (x \in [0, n])$
有 $X_{1}\thicksim Bi(N_1, p) \quad \& \quad X_{1}\thicksim Bi(N_2, p) \rArr X_1 + X_2 \sim Bi(N_1 + N_2, p)$
因为如果两个二项分布中伯努利试验的成功概率相同，那么相加后相当于进行了（N1+N2）次伯努利试验。

五. 泊松分布（Possion）

泊松分布表示在单位时间内，某个事件发生的概率。
可以认为泊松分布为二项分布的进一步扩展，将单位时间划分为n段时间，假设每段时间内事件发生的概率均为p，则相当于进行了n重伯努利试验。当 $\rightarrow \infty$ 时，在这段时间内事件发生的次数k即符合伯努利分布，而次数k的倒数也就是在这段时间内，事件发生的概率。
$f(x)=e^{-\lambda} \frac{\lambda^x}{x!}$
当 $\sim Poss(\lambda)$ 时，X的期望和方差均为 $\lambda$ 。
由于泊松分布是二项分布的扩展，则其也有 $X_{1}\thicksim Poss(\lambda_{1}) \quad \& \quad X_{2}\thicksim Poss(\lambda_{2}) \rArr X_1 + X_2 \sim Poss(\lambda_{1} + \lambda_{1})$
可以认为连续的Possion分布即为Gamma分布。有关Gamma分布的内容将在下节重点讲解。

六. 两点、二项和泊松分布的意义

上述三种分布往往直接用于对因变量y的分布进行限定。在一般生成模型（generative models）中，需要对X和y的联合分布 $f (X, y)$ 进行计算。判断当前X或y符合的分布类型，则可进一步完成相应的计算过程。

上述三种分布在机器学习的生成模型算法，以及随机过程中的泊松过程等建模中比较重要。

例题参考何书元《概率论》，北大出版社。 ↩︎

Steve_Huxtable

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
张志华-统计机器学习-随机变量

文章目录随机变量(r.v.)一. 离散型（discrete）和连续型随机变量随机变量(r.v.)在上一节中，我们对随机变量的定义进行了介绍。从本节开始，简单地认为随机变量或随机向量可映射到某可测的事件集，随机变量的概率及该可测事件集的概率测度。一. 离散型（discrete）和连续型随机变量离散型随机变量具有概率质量函数（p.m.f.）：表示为：fX(x)=Pr(X=x)f_{X}(x) = P_{r}(X=x)fX(x)=Pr(X=x)连续型随机变量具有概率密度函数（p.d.f
复制链接

扫一扫