机器学习中的概统知识——2 随机变量

最新推荐文章于 2022-05-11 11:47:21 发布

书剑与酒

最新推荐文章于 2022-05-11 11:47:21 发布

阅读量1.3k

点赞数

分类专栏：机器学习中的概统知识文章标签：概率论机器学习

本文链接：https://blog.csdn.net/weixin_42217488/article/details/108999671

版权

机器学习中的概统知识专栏收录该内容

3 篇文章 0 订阅

订阅专栏

上一小节介绍了部分什么是概率，并简单介绍了通过不同概率之间关系来计算概率的方法。同时也举了一些简单随机试验计算概率的例子。那么对于较为普遍的随机试验要如何计算或者用数学语言来表达概率呢？首先，要用数学语言来刻画一个随机试验，于是便引出来了随机变量。进而，通过研究随机变量的概率来探究一个随机试验的规律。可以说随机变量是近代概率论的基石，这也是本文以随机变量命名的原因。本文会从随机变量开始，依次介绍：离散型\连续型，单维\多维，随机变量的累计概率密度函数以及累计概率密度函数；还会介绍随机变量的变换；以及一些重要的随机变量的分布。

1. 随机变量

在上一章节中，详细介绍了事件和概率，这一章将着重介绍随机变量。随机变量在概率统计中几乎占据着基石的地位，所以理解随机变量也是学习概率统计的重中之重。那么什么是随机变量呢？很多读者估计对随机变量都有一个感性的理解，一般会视作一个随机数，但却难以用准确的语言描述出来。随机变量的定义如下：
定义
随机变量本质是一种从样本空间到实数的映射： $X:\Omega \rightarrow \mathbb{R}$ 该映射对于每一个输入的 $\omega$ 赋予了一个实值 $X(\omega)$ 。换句话说，设 $\Omega$ 为一个试验的样本空间，如果对每一个样本点 $\omega \in \Omega$ ，规定一个实数 $X(\omega)$ ，这样就定义了一个定义域为 $\Omega$ 的实值函数 $X=X(\omega)$ ，称X为随机变量，一般用大写的 $X, Y, Z$ 等表示。
例1.1 如抛一枚硬币5次，令 $X(\omega)$ 表示正面出现的次数。假设 $\omega$ 的结果为“正反正正正”，则 $X(\omega)=4$ 。整个样本空间存在的样本点数有 $2^{5}=32$ 个，而 $X(\omega)$ 的取值有“0，1，2，3，4，5”六种，所以 $X(\omega)$ 是一个32到6的离散映射。
例1.2 如某品牌的空调随机抽取一只做寿命试验，记录其寿命（单位：h），则 $\Omega=\{\omega|\omega \geq 0\}$ 。假设 $X(\omega)$ 表示该洗衣机的寿命，则 $X(\omega)$ 是一个连续型恒等映射。
根据上述的例子，可以观察到随机变量有以下两个特性：
1. 定义域是样本空间而不是数集；
2. 随机变量的取值具有随机性，在试验前无法确定其取值；
3. 随机变量的举止具有一定概率。

为什么要引入随机变量？
随机变量的引入，把对随机试验统计规律性的研究变成了对随机变量的研究。可以借助随机变量来刻画事件， $G$ 是一个数集，用 $\{\omega|X(\omega) \in G\}$ 来表示随机变量取值在 $G$ 中的样本点构成的事件，记这一事件为 $\in G$ 。因而求该事件的概率就可以直接求 $\in G)$ 。

2. 累计概率密度函数与概率密度函数

2.1 累计概率密度函数

累计概率密度函数是用来描述随机变量取值在某个子集的概率，又名为分布函数(CDF: Cumulative Density Function)。在学习概率密度函数之前，用分布函数一词更利于理解。直观上，可以理解分布函数为，随机变量分布在某一区间上的可能性。数学上,定义如下：
给定随机变量X，定义其累计概率密度函数如下：
$F_{X}(x)=P(X \leq x) x \in \mathbb{R}$ 称 $F_{X}(x)$ 为随机变量X的分布函数。

为什么要这样定义分布函数呢？
上一节中已经提到对于某一试验的某一事件的概率计算可以转换为求 $\in G)$ 。而对于 $\in G$ 一般可以表示为 $\leq b$ ，又因为 $\leq b) = P(X \leq b)-P(X \leq a)$ 。所以我们可以通过上面定义的分布函数表示大部分事件的概率。

例 2.1 随机掷两枚硬币，令X表示正面朝上的朝上的次数，则根据分布函数定义计算其分布函数为： $F_{X}(x) = \begin{cases} 0,\quad x < 0,\\ \frac{1}{4}, \quad 0 \leq x <1, \\ \frac{3}{4}, \quad 1 \leq x <2 ,\\ 1, \quad 2 \leq x. \\ \end{cases}$ 虽然这个例子很简单，但在多本教科书在介绍到分布函数时都要提到这个例子。分布函数很有迷惑性，即便随机变量的取值只有三种。读者可仔细体会 $F_{X}(1.9)=0.75$ 。

例2.2 战士向半径为r的圆形靶射击，令随机变量X表示子弹落点与靶心的距离。假设战士肯定不会脱靶，但战士的射击是完全随机的。则X的分布函数 $F_{X}(x)$ 如下： $F_{X}(x) = \begin{cases} 0,\quad x < 0,\\ \frac{x^{2}}{r^{2}}, \quad 0 \leq x \leq r ,\\ 1, \quad r < x. \\ \end{cases}$ 直观上理解上述结果是，战士的打靶结果不可能小于0，故 $F_{X}(0)=0$ .另外因为战士不可能脱靶，所以X必定小于r，所以当x大于r时， $P(X\leq x)=1$ .对于子弹在靶上的结果，其结果与其所占面积成正比，即 $P(X\leq x)=\frac{\pi x^{2}}{\pi r^{2}}$ 。

结合上述两个例子，我们可以发现分布函数有以下几点性质：

F是非降的： $x_{1}<x_{2}，$ 则 $F(x_{1}) \leq F(x_{2})$
F是规范的: $\lim_{x \rightarrow +\infty}=1 \\ \lim_{x \rightarrow -\infty}=0$
F是右连续的: $F (X) = F (X + 0)$

证明从略
在实际应用中，还会用到累计密度函数的逆，又称分位数函数，定义如下：
令X为一个随机变量，其累计概率密度函数为F，其逆为：
$F^{-1}(q)=\inf\{x:F(x)>q\},$ 其中q是一个取值在0到1概率，inf 表示一个集合最大的下界。上面对逆累计概率密度的定义即为满足F(x)>q的最大的x。如果F严格递增并且连续，则 $F^{-1}(q)$ 是满足 $F (x) = q$ 的唯一实数x。逆累计密度函数虽然不常听到，但在实际中也有很多应用，比如在假设检验中、蒙特卡洛采样中等都有用到，具体内容会在后面的章节介绍。

2.2 概率密度函数

概率密度函数又称概率分布函数（PDF:Probability Density Function），其定义对于连续性和离散型的随机变量的定义在形式上有所差异。直观上概率密度函数表示随机变量在某一点的概率。离散型的概率密度函数定义如下：
如果X取值为有限多个或者为无穷可数个值 $\{x_{1},x_{2},\dots\}$ ，则X是离散的，定义X的概率密度函数为 $f_{X}(x)=P(X=x)$ 又称概率函数。
例 2.3 随机掷两枚硬币，令X表示正面朝上的朝上的次数，则其概率密度函数为： $f_{X}(x) = \begin{cases} \frac{1}{4},\quad x = 0,\\ \frac{1}{2}, \quad x =1, \\ \frac{1}{4}, \quad x =2 ,\\ 0, \quad 其他. \\ \end{cases}$ 跟据对离散型随机变量的概率密度函数的计算，我们可以较为容易地得到其概率密度函数.

离散型的概率密度函数具有以下性质：
1. $\geq 0, x \in \{x_{1},x_{2},\dots\}$ ;
2. $\sum f(x) =1$ .
上述两个性质比较容易理解，证明从略。

对于连续型随机变量以及其概率密度函数的定义如下：
如果存在某个函数 $f_{X}$ 对所有x有 $f_{X}(x) \geq 0$ ， $\int_{-\infty}^{+\infty}f_{X}(x) {\rm d} x=1$ 并且对任意 $\leq b$ 有 $P(a<X<b)=\int_{a}^{b}f_{X}(x) {\rm d}x$ ,
则随机变量X是连续型随机变量，函数 $f_{X}$ 为连续型随机变量的概率密度函数，且 $F_{X}(x)=\int_{-\infty}^{x}f_{X}(t) {\rm d}t$ 这也是为什么 $F_{X}$ 为什么叫做累计概率密度函数，因为其为概率密度函数从负无穷到x的积分值。对上式两边同求微分可得： $f_{X}(x)=F^{'}_{X}(x)$ 上式当且仅当x在 $F_{X}$ 可微的点时成立。

上面对连续型概率密度函数的定义中包含了其两个性质，其与离散型随机变量的有对应关系：
1. $\geq 0, x \in \{-\infty,+\infty\}$ ;
2. $\int f(x) {\rm d} x=1$ .

3.常见分布

在描述一个随机变量的概率分布函数时，通常会使用以下术语“随机变量X服从于分布F”,用符号表示为 $\sim F.$ 通常 $\sim$ 是近似符号，用于此是一种约定俗成的结果。

3.1 离散型

关于离散型分布主要介绍以下五种：离散均匀分布；伯努利分布；几何分布；二项分布以及泊松分布。
离散均匀分布
k为大于1的给定整数，假设X具有以下概率密度函数： $\begin{cases}\frac{1}{k}, x＝１,\dots,k， \\ 0, 其他， \end{cases}$ 则称X在 $\{1,\dots,k\}$ 上服从均匀分布。其概率密度函数如下图：
在这里插入图片描述
累计概率密度函数图像：

伯努利分布
令X表示抛硬币的结果，正反用1，0表示。假设 $P (X = 1) = p ； P (X = 0) = 1 - p$ ，其中p是抛掷一次结果为正面的概率。这就是一个伯努利分布的典型例子，X服从伯努利分布，记为： $\sim {\rm Bernoulli}(p)$ 其概率密度函数表示为： $f(x)=p^{x}(1-p)^{1-x}， x \in \{0,1\}$ 伯努利分布虽然很简单，但在机器学习中也多有应用，比如logistic回归就有伯努利分布，后面章节会对此详细介绍。
概率密度函数：
leiji 在这里插入图片描述
累计概率密度函数

几何分布
令随机变量X表示抛一枚硬币直到正面朝上所需的次数，假设p是抛掷一次结果为正面的的概率。这就是一个几何分布的典型例子，X服从几何分布，记为： $\sim {\rm G}(p)$ 其概率密度函数表示为： $f(x)=p(1-p)^{1-x},$ 其概率密度函数如下图：
在这里插入图片描述
累计概率密度函数

二项式分布
令随机变量X表示抛n次硬币正面朝上的次数，假设p是抛掷一次结果为正面的的概率。这就是一个二项分布的典型例子，X服从二项分布，记为： $\sim {\rm Binomial}(n,p)$ 有时简记为 $\sim {\rm B}(n,p)$ ，其概率密度函数表示为： $f(x)=\begin{cases}C_{n}^{x}p^{x}(1-p)^{1-x}, x=0,\dots,n,\\ 0, 其他, \end{cases}$ 其概率密度函数如下图：
在这里插入图片描述
累计概率密度函数：

特别的，对于二项分布满足如下性质：
　记 $X_{1} \sim B(n_{1},P),$ $X_{2} \sim B(n_{2},P),$ 并且相互独立，则： $X_{1} +X_{2}\sim B(n_{1}+n_{2},P).$
该性质比较容易理解，证明从略。

泊松分布
当p较小(一般认为需 $\leq 0.1$ )，或n较大（一般认为需 $\geq 50$ ）时，二项分布可转变为泊松分布。泊松分布有很多实际应用场景，比如：人群中患某种罕见病的人数；某路口一段时间通过的车辆数等等。泊松分布的定义如下：
若随机变量X的可能取值为 $0,1,2,\dots，$ 且： $\frac{\lambda^{k} e^{-\lambda}}{x!}， x=0,1,2,\dots$ 其中 $\lambda=np>0$ 为参数，n，p为二项分布的参数，则称X服从参数 $\lambda$ 的泊松分布，记为： $\sim {\rm P}(\lambda).$ 对于二项分布到泊松分布的变化有一个泊松定理保证，此处省略了对其介绍和证明部分。其泊松分布的概率密度函数如下图：
在这里插入图片描述
累计概率密度函数

注意1
在上面的介绍中多涉及到一些数学符号表示，容易让人产生迷惑。其中X时随机变量；x是随机变量一个特定的值；n，p等为参数，是一个固定的实数。通常情况下，有些参数是给定的，有些参数是位置的，对于未知的参数，需要通过数据区估计，这就是统计推断

注意2
在阅读上述内容时，对随机变量的设定未提及样本空间，容易让人产生X为一个未知数的感觉，在实际中可以这样理解，但是随机变量的本质仍为样本空间到数域的映射。需要多加体会。

3.2 连续型

关于连续型随机变量的分布主要介绍以下几种：均匀分布；高斯分布；指数分布以及伽马分布。这里对这些分布只做简单介绍，对于机器学习中常用的高斯分布会在介绍了多元分布后有一小节专门详细介绍。除了上述分布以外，还有贝塔分布，卡方分布，t分布以及狄利克雷分布等等，此处不做一一介绍。

均匀分布
顾名思义，如果： $f(x)=\begin{cases}\frac{1}{b-a}. x \in [a,b], \\ 0, 其他． \end{cases}$ 则服从 $(a, b)$ 上的均匀分布，记为: $\sim U(a,b) ,$ 其中，a<b。均匀分布的分布函数如下： $F(x)=\begin{cases}0, x<a,\\ \frac{x-a}{b-a}, x \in [a,b], \\ q, x>b． \end{cases}$ 关于累计概率密度函数的计算，读者可以根据其定义自行从概率密度函数推导。均匀分布的概率密度函数以及累计概率密度函数的图像如下：
在这里插入图片描述
累计概率密度函数

高斯分布
高斯分布又名正态分布，无论在生活中还是在机器学习中，都有广泛应用。其定义如下：
若： $f(x)=\frac{1}{\sigma \sqrt{2 \pi}}e^{-\frac{(x-\mu)^{2}}{2\sigma^{2}}},x \in \mathbb{R},$ 则X服从参数为 $\sigma,\mu$ 的高斯分布，记为: $\sim N(\sigma,\mu),$ 其中， $\sigma>0,\mu \in \mathbb{R}$ 。高斯分布的概率密度函数以及累计概率密度函数的图像如下：
在这里插入图片描述
累计概率密度函数：

指数分布
指数分布常用于描述电子元件的寿命等。其定义如下：
若 $f(x)=\frac{1}{\beta}e^{-\frac{x}{\beta}}, x >0,$ 则X服从参数为 $\beta$ 的指数分布，记为： $\sim Exp(\beta),$ 其中 $\beta>0$ 。易见指数分布随机变量X的分布函数为： $F(x)=\begin{cases} 1-e^{-\frac{x}{\beta}}, x > 0, \\ 0, x \leq 0． \end{cases}$ 高斯分布的概率密度函数以及累计概率密度函数的图像如下：
在这里插入图片描述
累计概率密度函数

伽马分布
指数分布时指数分布的一个泛化。其定义如下：
对 $\alpha>0,$ 定义伽马函数为： $\Gamma(\alpha)=\int_{0}^{\infty}y^{\alpha-1}e^{-y}{\rm d}y.$ 若 $f(x)=\frac{1}{\beta^{\alpha}\Gamma(\alpha)}x^{\alpha-1}e^{-\frac{x}{\beta}}, x >0,$ 则X服从参数为 $\alpha,\beta$ 的伽马分布，记为： $\sim \Gamma(\alpha,\beta),$ 其中 $\alpha,\beta>0$ 。易见指数分布即为 $\Gamma(1,\beta).$
在这里插入图片描述
CDF:

4.多元分布

在机器学习中，大多数的随机变量都不是一维的。比如对决策树、随机森林以及朴素贝叶斯等算法，都是针对多元随机变量。从应用角度来看，对于计算机视觉任务来说，一张图片有成千上万个像素，对应到机器学习算法就是成千上万个维度。再比如自然语言处理任务，要描述一个单词也要用到很高维度的向量。总之，高维的随机变量在机器学习中的应用更加广泛。

4.1 二元分布

在推广到更高维度之前，先对二元随机变量对应的二元分布进行介绍。在介绍二元分布之前先介绍二维随机变量。与一维随机变量的定义类似，所谓二维随机变量，是指从样本空间到实数域 $\mathbb{R}$ 的映射转变为到 $\mathbb{R}^{2}$ 的映射。所以二维随机变量对应的不是一个值，而是一个二维向量。
这里从一维随机变量对二维随机变量进行定义：

设X,Y是定义在同一样本空间 $\Omega$ 的两个随机变量，则称(X,Y)为二维随机变量。

类似于一维随机变量的分布函数的定义，二维随机变量定义为：

设(X,Y)是二维随机变量，对任意实数x,y，称： $F_{X,Y}(x,y)=P(X \leq x,Y\leq y )$ 为二维随机变量（X,Y）的二维分布函数。

对于离散型随机变量X和Y，定义其联合密度函数为： $f_{X,Y}(x,y)=P(X=x ,Y=y)$
类似与一维概率密度函数，二元离散型概率密度函数也有如下性质：
1. $\geq 0, x \in \{x_{1},x_{2},\dots\},y \in \{y_{1},y_{2},\dots\}$ ;
2. $\sum_{x} \sum_{y} f(x,y) =1$ .
例 4.1.1 袋子中有标号1，2，3的球各一个，不放回地取两个，设随机变量X表示第一次摸出来球的标号；Y表示第二次摸出来球的标号；则二元分布函数 $F_{X,Y}(2,3)=P(X\leq2,Y\leq3)=\frac{2}{3}$ 概率分布 $f_{X,Y}(2,3)=P(X=2 ,Y=3)=\frac{1}{6}$

对于连续性随机变量，其概率密度函数定义为：
对二维随机变量（X,Y）,如果存在二元非负函数 $f (x, y)$ ，使得对任意实数x，y有： $F_{X,Y}(x,y)=\int_{-\infty}^{x}\int_{-\infty}^{y}f(u,v){\rm d}u{\rm dv},$ 则称 $f (x, y)$ 为二维随机变量的概率密度函数，又称X,Y的联合概率密度函数，有时记作： $f_{X,Y}(x,y)$ 。
类似与一维概率密度函数，连续型二元概率密度函数也有如下性质：
1. $\geq 0, x \in \mathbb{R^{2}}$ ;
2. $\int \int f(x,y) {\rm d} x {\rm d} y=1$ .

4.2 多元分布

在数学中，一维到二维的推广往往具有质的飞跃，而二维到n维只是形式上的推广。对多维随机变量亦是如此。
n维随机变量定义：

设 $X_{1},X_{2},\dots,X_{n}$ 是定义在同一样本空间 $\Omega$ 的n个随机变量，则称 $(X_{1},X_{2},\dots,X_{n})$ 为n维随机变量。

类似于二维随机变量的分布函数的定义，n维随机变量定义为：

设 $(X_{1},X_{2},\dots,X_{n})$ 是二维随机变量，对n个任意实数 $(x_{1},x_{2},\dots,x_{n})$ ，称： $F(x_{1},x_{2},\dots,x_{n})=P(X_{1} \leq x_{1},X_{2}\leq x_{2},\dots,X_{n} \leq x_{n} )$ 为n维随机变量 $(X_{1},X_{2},\dots,X_{n})$ 的n维分布函数。

对于离散型随机变量 $(X_{1},X_{2},\dots,X_{n})$ ，定义其联合密度函数为： $f(x_{1},x_{2},\dots,x_{n})=P(X_{1} =x_{1},X_{2}=x_{2},\dots,X_{n} = x_{n} )$ 类似与二维概率密度函数，多元离散型概率密度函数也有如下性质：
1.对任意 $(x_{1},x_{2},\dots,x_{n})$ ,都有 $f(x_{1},x_{2},\dots,x_{n}) \geq 0$ ;
2. $\sum_{x_{1}},\dots, \sum_{x_{n}} f(x_{1},x_{2},\dots,x_{n}) =1$ .

对于连续性随机变量，其概率密度函数定义为：
对n维随机变量 $(X_{1},X_{2},\dots,X_{n})$ ,如果存在n元非负函数 $f(x_{1},x_{2},\dots,x_{n})$ ，使得对n个任意实数 $(x_{1},x_{2},\dots,x_{n})$ 有： $F(x_{1},x_{2},\dots,x_{n})=\int_{-\infty}^{x_{1}},\dots,\int_{-\infty}^{x_{n}}f(u_{1},u_{2},\dots,u_{n}){\rm d}u_{1},\dots,{\rm d} u_{n},$ 则称 $f(x_{1},x_{2},\dots,x_{n})$ 为n维随机变量的概率密度函数，又称 $X_{1},X_{2},\dots,X_{n}$ 的联合概率密度函数。
类似与一维概率密度函数，二元概率密度函数也有如下性质：
1. $f(x_{1},x_{2},\dots,x_{n}) \geq 0, (x_{1},x_{2},\dots,x_{n}) \in \mathbb{R^{n}}$ ;
2. $\int,\dots, \int f(x_{1},x_{2},\dots,x_{n}) {\rm d}x_{1},\dots,{\rm d} x_{n}=1$ .

4.2 边缘分布

边缘分布又称边际分布，定义如下：

对于二维离散型随机变量 $(X, Y)$ ,又概率密度函数 $f_{X,Y}$ .则X的边缘概率密度函数定义为： $f_{X}(x) = P(X=x)=\sum_{y}P(X=x,Y=y)=\sum_{y}f(x,y)$ Y的边缘概率密度函数定义为： $f_{Y}(y) = P(Y=y)=\sum_{x}P(X=x,Y=y)=\sum_{x}f(x,y)$

对于连续型随机变量，边缘概率密度函数定义如下:

对于二维连续型随机变量 $(X, Y)$ ,又概率密度函数 $f_{X,Y}$ .则X的边缘概率密度函数定义为： $f_{X}(x) =\int f(x,y){\rm d}y$ Y的边缘概率密度函数定义为： $f_{Y}(y) =\int f(x,y){\rm d}x$

4.3 独立性

随机变量的独立性与事件的独立性相互对应。随机变量的独立性定义如下：

对于任意A和B，如果 $\in A,Y \in B) = P(X \in A)P(Y \in B)$ 则称随机变量X,Y是独立的。
这里的A,B是随机变量X,Y对应的样本空间 $\mathcal{X,Y}的子集$ ，理解为事件。

随机变量X，Y独立的充要条件为：
对任意x,y,满足： $f(x,y)=f_{X}(x)f_{Y}(y)$

4.3 条件分布

当二维随机变量(X,Y)中的两个随机变量不独立时，随机变量X,Y应该会存在一种相互影响的关系。
在已观测到Y=y的情况下，X=x的条件概率为： $P(X=x|Y=y)=\frac{P(X=x,Y=y)}{P(Y=y)}$ 从而离散型随机变量的条件概率密度函数定义如下：如果 $f_{X|Y}(x|y)>0$ 称： $\begin{aligned} f_{X|Y}(x|y)&=P(X=x|Y=y)\\ &=\frac{P(X=x,Y=y)}{P(Y=y)}=\frac{f(x,y)}{f_{Y}(y)} \end{aligned}$
对于连续情况下，因为会出现概率为0的事件{Y=y}，所以采用一种极限的方式定义条件分布函数，再由条件分布函数推出条件密度函数。
定义
设(X,Y)为二维连续性随机变量，若对任意 $\epsilon>0$ ,有 $P(y-\epsilon<Y \leq y+\epsilon)>0$ 同时存在极限 $\lim_{\epsilon \rightarrow 0^{+}}P(X\leq x|y-\epsilon<Y \leq y+\epsilon)$ ,则定义此极限为连续型随机变量Y=y条件下X的条件分布函数，记为 $F_{X|Y}(x|y)$
通过极限计算条件分布函数比较麻烦，通常通过以下表示定理计算。
设(X,Y)有二维概率密度函数 $f (x, y)$ ,从而有边缘概率密度函数 $f_{X}(x)$ , $f_{Y}(y)$ 。则： $\begin{aligned} F_{X|Y}(x|y)&=\lim_{\epsilon \rightarrow 0^{+}}P(X\leq x|y-\epsilon<Y \leq y+\epsilon)\\ &=\lim_{\epsilon \rightarrow 0^{+}} \frac{P(X\leq x,y-\epsilon<Y \leq y+\epsilon)}{P(y-\epsilon<Y \leq y+\epsilon)}\\ &=\lim_{\epsilon \rightarrow 0^{+}}\frac{F(x,y+\epsilon)-F(x,y-\epsilon)}{F_{Y}(y+\epsilon)-F_{Y}(y-\epsilon)} \\ &=\lim_{\epsilon \rightarrow 0^{+}}\frac{\frac{F(x,y+\epsilon)-F(x,y-\epsilon)}{2\epsilon}}{\frac{F_{Y}(y+\epsilon)-F_{Y}(y-\epsilon)} {2\epsilon}} \\ &=\frac{\frac{\partial F(x,y)}{\partial y}}{F^{'}_{Y}(y)}=\int_{-\infty}^{x}\frac{f(u,y)}{f_{Y}(y)}{\rm d}u \end{aligned}$
进而可得条件概率密度函数： $f_{X|Y}(x|y)=\frac{f(x,y)}{f_{Y}(y)}$
关于 $f_{Y|X}(y|x)$ 的求法略去。

注意
概率论中观测一词的含义
随机变量在观测到之前是一个样本空间到数的映射，观测之后变成一个数。如f(X，Y)是一个随机变量(X,Y)的概率密度函数，而当观测到Y=y时，f(X,Y=y)是当Y=y时，随机X的概率密度函数。

5.随机变量的变换

5.1 两个随机变量

假设随机变量X有概率密度寒素 $f_{X}$ ，累计概率密度函数 $F_{X}$ ，则任意X的函数，比如 $g (X)$ ，也是随机变量。 $g (X)$ 通常有实际意义，有时也是为了方便运算。由于Y是X的函数，于是可以根据X的概率性态来描述Y的概率性态。数学语言表示即：
对于任意集合A(可看作事件),
$\in A)=P(g(x)\in A)$ 这里又需要重温随机变量的本质是样本空间到数值的映射这一概念。
令 $y = g (x)$ ，则 $g (x)$ 将原随机变量X的样本空间 $\mathcal{X}$ 映射到Y的样本空间 $\mathcal{Y}$ 。定义g的逆映射 $g^{-1}$ ,: $g^{-1}(A) = \{x \in \mathcal{X}:g(x)\in A\}$ 其中A是随机变量Y对应样本空间 $\mathcal{Y}$ 的子集。
现给定随机变量 $Y = g (X)$ ,则对于任意集合 $\in \mathcal{Y}$ ，有 $\begin{aligned}P(Y \in A) &=P(g(x)\in A) \\&=P(\{x \in \mathcal{X}:g(x)\in A\}) \\ &=P(X \in g^{-1}(A)) \end{aligned}$
根据上式，对离散型随机变量，因为其样本空间可数，故而其概率密度函数计算如下：
$\begin{aligned}f_{Y}(y)&=P(Y =y) \\ &=P(\{x \in \mathcal{X}:g(x)= y\}) \\ &=P(X \in g^{-1}(y)) \\ &=\sum_{x \in g^{-1}(y)}P(X=x) \\ &=\sum_{x \in g^{-1}(y)}f_{X}(x) \end{aligned}$
对于连续型随机变量，可先计算随机变量 $Y = g (X)$ 累计分布函数： $\begin{aligned}F_{Y}(y)&=P(Y \leq y) \\ &=P(\{x \in \mathcal{X}:g(x)\leq y\}) \\ &=\int_{\{x \in \mathcal{X}:g(x)\leq y\}}f_{X}(x){\rm d}x \end{aligned}$ 则其概率密度函数为： $f_{Y}(y)=F^{'}_{Y}(y)$ 可以发现变换的关键在于对积分域 ${\{x \in \mathcal{X}:g(x)\leq y\}}$ 的计算。

5.2 多个随机变量

有些情况，会用到多个随机变量的变换。例如，X,Y是给定的随机变量，可能想知道X+Y的分布.令Z = g(X,Y)，则对于分布函数的计算与上面的类似： $\begin{aligned}F_{Z}(z)&=P(Z \leq z) \\ &=P(\{(x,y) \in (\mathcal{X},\mathcal{Y}):g(x,y)\leq z\}) \\ &=\int \int_{\{(x,y) \in (\mathcal{X},\mathcal{Y}):g(x,y)\leq z\}}f_{X,Y}(x,y){\rm d}x{\rm d}y \end{aligned}$ 则其概率密度函数为： $f_{Z}(z)=F^{'}_{Z}(z)$
对于离散型随机变量的概率密度函数计算 $\begin{aligned}f_{Z}(z)&=P(Z =z) \\ &=P(\{(x,y) \in (\mathcal{X},\mathcal{Y}):g(x,y)= z\}) \\ &=P((X,Y) \in g^{-1}(z) \\ &=\sum_{(x,y) \in g^{-1}(z)}P((X,Y)=(x,y)) \\ &=\sum_{(x,y) \in g^{-1}(z)}f_{X,Y}(x,y) \end{aligned}$