概率与统计之四

概率与统计之四 \color{green}\Large\textbf{概率与统计之四} 概率与统计之四
文章为一些读书笔记,原书为机械工业出版社的《概率论导论》Joseph K.Blizstein和Jessica Hwang著,案例讲解和讲述证明是本书的一大特点,教给人们的不只是一些概率论的概念和公式,而是思考问题的思维方式和策略。不过就是书里的错印有点多,需要边看边改。
_(:з」∠)

一. 联合分布

1. 离散型联合分布

两个离散型随机变量联合形成的分布即为离散型联合分布。

2. 连续型联合分布

两个连续型随机变量联合形成的分布即为连续型联合分布,已经知道,在连续型分布中,求概率就是求曲线面积,那么对于连续型联合分布而言,求概率也就是求曲面的体积。也就是说连续型联合分布密度函数是一个二元函数,很多给定条件其实是去划分求二重积分的区域,在划定的区域对联合密度函数求二重积分,便得到了满足给定条件的概率,很多应用问题可以借此思想去处理。
比较不同速率的指数分布
令 T 1 , T 2 独 立 服 从 指 数 分 布 : T 1 ∼ E x p o ( λ 1 ) , T 2 ∼ E x p o ( λ 2 ) 。 求 P ( T 1 < T 2 ) 这 就 好 比 比 较 两 种 不 相 干 的 产 品 的 使 用 寿 命 , 比 如 T 1 是 一 台 冰 箱 的 使 用 寿 命 , T 2 是 一 台 电 视 的 使 用 寿 命 而 λ 1 和 λ 2 是 两 种 家 电 单 位 时 间 内 所 更 换 的 台 数 。 而 P ( T 1 < T 2 ) 就 是 求 一 台 新 的 冰 箱 比 一 台 新 的 电 视 先 出 现 故 障 的 概 率 。 首 先 , 构 造 联 合 密 度 函 数 f X , Y ( x , y ) = f X ( x ) f Y ( y ) = λ 1 e − λ 1 t 1 λ 2 e − λ 2 t 2 其 次 , 确 定 积 分 区 域 , 很 显 然 t 2 的 取 值 为 所 有 支 撑 [ 0 , + ∞ ] , 而 t 1 根 据 条 件 只 能 是 小 于 t 2 即 [ 0 , t 2 ) , 若 在 直 角 坐 标 系 中 用 X 轴 表 示 t 1 值 , Y 轴 表 示 t 2 值 , 则 积 分 区 域 为 直 线 t 1 = t 2 直 线 左 侧 的 所 有 区 域 最 后 , 进 行 积 分 计 算 P ( T 1 < T 2 ) = ∫ 0 + ∞ ∫ 0 t 2 λ 1 e − λ 1 t 1 λ 2 e − λ 2 t 2 d t 1 d t 2 = λ 1 λ 1 + λ 2 \begin{aligned} & 令T_1,T_2独立服从指数分布:T_1\sim Expo(\lambda_1),T_2\sim Expo(\lambda_2)。求P(T_1<T_2)\\ &这就好比比较两种不相干的产品的使用寿命,比如T_1是一台冰箱的使用寿命,T_2是一台电视的使用寿命\\ &而\lambda_1和\lambda_2是两种家电单位时间内所更换的台数。而P(T_1<T_2)就是求一台新的冰箱比一台新的电视先出\\ &现故障的概率。\\ &\textcolor{blue}{首先},构造联合密度函数f_{X,Y}(x,y)=f_X(x)f_Y(y)=\lambda_1e^{-\lambda_1t_1}\lambda_2e^{-\lambda_2t_2}\\ &\textcolor{blue}{其次},确定积分区域,很显然t_2的取值为所有支撑[0,+\infty],而t_1根据条件只能是小于t_2即[0,t_2),\\ &若在直角坐标系中用X轴表示t_1值,Y轴表示t_2值,则积分区域为直线t_1=t_2直线左侧的所有区域\\ &\textcolor{blue}{最后},进行积分计算P(T_1<T_2)=\int_0^{+\infty}\int_0^{t_2}\lambda_1e^{-\lambda_1t_1}\lambda_2e^{-\lambda_2t_2}dt_1dt_2=\frac{\lambda_1}{\lambda_1+\lambda_2} \end{aligned}\\ T1,T2:T1Expo(λ1),T2Expo(λ2)P(T1<T2)使寿T1使寿T2使寿λ1λ2P(T1<T2)fX,Y(x,y)=fX(x)fY(y)=λ1eλ1t1λ2eλ2t2t2[0,+]t1t2[0,t2)Xt1Yt2线t1=t2线P(T1<T2)=0+0t2λ1eλ1t1λ2eλ2t2dt1dt2=λ1+λ2λ1
柯西概率密度函数
令 X 和 Y 独 立 同 分 布 与 N ( 0 , 1 ) , 且 T = X Y , 则 T 服 从 的 分 布 便 是 柯 西 分 布 若 要 求 柯 西 分 布 的 分 布 函 数 , 首 先 , 要 明 确 柯 西 分 布 是 一 个 连 续 型 分 布 , 而 不 是 联 合 分 布 。 其 次 , 先 求 累 积 函 数 再 求 密 度 函 数 对 于 连 续 型 分 布 的 累 积 函 数 有 F T ( t ) = P ( T ≤ t ) = P ( X Y ≤ t ) = P ( X ∣ Y ∣ ≤ t ) , 简 单 计 算 一 下 便 知 X Y 与 X ∣ Y ∣ 的 分 布 是 一 样 通 过 这 个 等 式 推 到 能 进 一 步 理 解 随 机 分 布 中 随 机 变 量 T 与 分 布 函 数 中 的 自 变 量 t 的 区 别 , 对 于 分 布 而 言 T 为 宏 观 上 的 整 个 支 撑 , 而 t 则 可 以 看 做 在 对 一 个 事 件 求 取 概 率 时 , 该 事 件 所 满 足 的 条 件 总 之 F T ( t ) = P ( X ∣ Y ∣ ≤ t ) = P ( X ≤ t ∣ Y ∣ ) = ∫ − ∞ + ∞ ∫ − ∞ t ∣ y ∣ 1 2 π e − x 2 / 2 1 2 π e − y 2 / 2 d x d y 这 就 把 问 题 转 化 为 随 机 变 量 X , Y 所 构 成 的 联 合 分 布 的 条 件 区 域 的 求 积 分 的 问 题 上 来 了 , 最 后 上 式 会 化 为 F T ( t ) = 2 π ∫ 0 + ∞ e − y 2 / 2 Φ ( t y ) d y , Φ ( x ) 为 标 准 正 态 分 布 的 概 率 累 积 函 数 再 求 概 率 密 度 函 数 , 略 去 期 间 的 计 算 过 程 得 f T ( t ) = F T ′ ( t ) = 1 π ( 1 + t 2 ) , t ∈ R , 验 证 ∫ − ∞ + ∞ 1 1 + t 2 d t = a r c   t a n ( ∞ ) − a r c   t a n ( − ∞ ) = π    ⟹    ∫ − ∞ + ∞ f T ( t ) d t = 1 所 以 所 求 概 率 密 度 函 数 是 有 效 的 需 要 注 意 的 是 , 虽 然 柯 西 分 布 曲 线 形 似 正 态 分 布 曲 线 , 但 柯 西 分 布 不 存 在 期 望 , 也 不 存 在 方 差 和 更 高 阶 的 矩 , 因 为 E ( T ) = ∫ − ∞ + ∞ t π ( 1 + t 2 ) d t 是 不 收 敛 的 \boxed{ \begin{aligned} &令X和Y独立同分布与N(0,1),且T=\frac{X}{Y},则T服从的分布便是柯西分布\\ &若要求柯西分布的分布函数,\\ &首先,要明确柯西分布是一个连续型分布,而不是联合分布。其次,先求累积函数再求密度函数\\ &对于连续型分布的累积函数有F_T(t)=P(T\leq t)=P(\frac{X}{Y}\leq t)=P(\frac{X}{|Y|}\leq t),简单计算一下便知\frac{X}{Y}与\frac{X}{|Y|}的分布是一样\\ &通过这个等式推到能进一步理解随机分布中随机变量T与分布函数中的自变量t的区别,对于分布而言T为宏观上的整个支撑,\\ &而t则可以看做在对一个事件求取概率时,该事件所满足的条件\\ &总之F_T(t)=P(\frac{X}{|Y|}\leq t)=P(X\leq t|Y|)=\int_{-\infty}^{+\infty}\int_{-\infty}^{t|y|}\frac{1}{\sqrt{2\pi}}e^{-x^2/2}\frac{1}{\sqrt{2\pi}}e^{-y^2/2}dxdy这就把问题转化为随机变量X,Y所构成的\\ &联合分布的条件区域的求积分的问题上来了,最后上式会化为F_T(t)=\sqrt{\frac{2}{\pi}}\int_{0}^{+\infty}e^{-y^2/2}\Phi(ty)dy,\Phi(x)为标准正态分布的概率累积函数\\ &再求概率密度函数,略去期间的计算过程得f_T(t)=F_T^{'}(t)=\frac{1}{\pi(1+t^2)},t\in R,验证\int_{-\infty}^{+\infty}\frac{1}{1+t^2}dt = arc\,tan(\infty)-arc\,tan(-\infty)=\pi \implies\int_{-\infty}^{+\infty}f_T(t)dt=1\\ &所以所求概率密度函数是有效的\\ &\textcolor{red}{需要注意的是,虽然柯西分布曲线形似正态分布曲线,但柯西分布不存在期望,也不存在方差和更高阶的矩,因为E(T)=\int_{-\infty}^{+\infty}\frac{t}{\pi(1+t^2)}dt是不收敛的} \end{aligned} } XYN(0,1)T=YXT便西西西FT(t)=P(Tt)=P(YXt)=P(YXt)便YXYXTtTtFT(t)=P(YXt)=P(XtY)=+ty2π 1ex2/22π 1ey2/2dxdyX,YFT(t)=π2 0+ey2/2Φ(ty)dyΦ(x)fT(t)=FT(t)=π(1+t2)1tR,+1+t21dt=arctan()arctan()=π+fT(t)dt=1西线线西E(T)=+π(1+t2)tdt

3. 混合分布

当X,Y两个随机变量中一个为离散变量一个为连续变量,两者就构成了一个混合分布。其本身并没有太难理解,只不过符号有点复杂,不要把离散的质量函数与连续的密度函数搞混,在应用方面最常用的当属 B e t a 分 布 和 G a m m a 分 布 \textcolor{blue}{Beta分布和Gamma分布} BetaGamma,通过不断试验统计试验结果,来更新后验分布,从而生成最符合试验结果的目标值

4. 独立性

判 定 两 随 机 变 量 X , Y 是 否 相 互 独 立 { 相 互 独 立 { X , Y 的 条 件 函 数 中 不 存 在 彼 此 的 变 量 X , Y 不 会 对 彼 此 的 取 值 范 围 产 生 约 束 各 随 机 变 量 的 条 件 分 布 与 边 缘 分 布 相 同 相 互 依 赖 { X , Y 的 条 件 函 数 中 存 在 彼 此 的 变 量 X , Y 相 互 约 束 彼 此 的 取 值 范 围 各 随 机 变 量 的 条 件 分 布 与 边 缘 分 布 不 同 关 于 取 值 范 围 相 互 影 响 的 情 况 可 以 用 一 个 例 子 来 说 明 令 ( X , Y ) 是 正 方 形 区 域 { ( x , y ) : x , y ∈ [ 0 , 1 ] } 中 的 完 全 随 机 点 , 且 f X , Y ( x , y ) = { 1 , x , y ∈ [ 0 , 1 ] 0 , 其 他 区 域 很 明 显 X , Y 全 都 服 从 U n i f ( 0 , 1 ) , 且 两 者 是 相 互 独 立 的 f X , Y ( x , y ) = 1 成 立 的 取 值 范 围 对 于 X 来 说 是 [ 0 , 1 ] , 对 于 Y 来 说 也 是 [ 0 , 1 ] , 并 不 会 因 为 双 方 的 取 值 变 化 对 彼 此 造 成 影 响 边 缘 函 数 f X ( x ) = 1 , f Y ( y ) = 1 , 均 为 常 数 不 受 彼 此 变 量 影 响 再 令 ( X , Y ) 是 圆 形 区 域 { ( x , y ) : x 2 + y 2 ≤ 1 } 上 的 完 全 随 机 点 , 且 f X , Y ( x , y ) = { 1 π , x 2 + y 2 ≤ 1 0 , 其 他 区 域 在 这 个 分 布 中 X , Y 会 相 互 约 束 对 方 的 取 值 从 而 使 联 合 分 布 成 立 , 所 以 两 者 是 相 互 依 赖 的 当 X = x 时 若 想 使 f X , Y ( x , y ) = 1 π 成 立 , 则 Y 的 取 值 范 围 为 [ − 1 − x 2 , 1 − x 2 ] , 是 受 X 的 取 值 影 响 的 f X ( x ) = 2 π 1 − x 2 , f Y ( y ) = 2 π 1 − y 2 , f Y ∣ X ( y ∣ x ) = 1 2 1 − x 2 , 很 明 显 Y 的 条 件 函 数 中 存 在 x 变 量 , 是 受 X 取 值 影 响 的 。 值 得 注 意 的 是 各 变 量 的 条 件 分 布 是 一 个 均 匀 分 布 , 可 以 想 象 联 合 分 布 的 支 撑 区 域 图 形 为 一 圆 饼 状 立 体 , 其 切 面 为 一 长 方 形 \begin{aligned} &判定两随机变量X,Y是否相互独立 \begin{cases} 相互独立 \begin{cases} X,Y的条件函数中\textcolor{blue}{不存在}彼此的变量\\ X,Y\textcolor{blue}{不会}对彼此的取值范围产生约束\\ 各随机变量的条件分布与边缘分布\textcolor{blue}{相同} \end{cases}\\ 相互依赖 \begin{cases} X,Y的条件函数中\textcolor{red}{存在}彼此的变量\\ X,Y\textcolor{red}{相互约束}彼此的取值范围\\ 各随机变量的条件分布与边缘分布\textcolor{red}{不同} \end{cases} \end{cases}\\ &关于取值范围相互影响的情况可以用一个例子来说明 \end{aligned}\\ \boxed{ \begin{aligned} &令(X,Y)是正方形区域\{ (x,y):x,y\in[0,1]\}\\ &中的完全随机点,且f_{X,Y}(x,y)= \begin{cases} 1,&x,y\in[0,1]\\ 0,&其他区域 \end{cases}\\ &很明显X,Y全都服从Unif(0,1),且两者是\textcolor{blue}{相互独立的}\\ &f_{X,Y}(x,y)=1成立的取值范围对于X来说是[0,1],\\ &对于Y来说也是[0,1],并不会因为双方的取值变化对彼此造成影响\\ &边缘函数f_X(x)=1,f_Y(y)=1,均为常数不受彼此变量影响 \\ \\ \end{aligned} } \boxed{ \begin{aligned} &再令(X,Y)是圆形区域\{ (x,y):x^2+y^2\leq 1\}\\ &上的完全随机点,且f_{X,Y}(x,y)= \begin{cases} \frac{1}{\pi},&x^2+y^2\leq 1 \\ 0,&其他区域 \end{cases}\\ &在这个分布中X,Y会相互约束对方的取值从而使联合分布成立,所以两者是\textcolor{red}{相互依赖的}\\ &当X=x时若想使f_{X,Y}(x,y)=\frac{1}{\pi}成立,则Y的取值范围为[-\sqrt{1-x^2},\sqrt{1-x^2}],是受X的取值影响的\\ &f_X(x)=\frac{2}{\pi}\sqrt{1-x^2},f_Y(y)=\frac{2}{\pi}\sqrt{1-y^2},f_{Y\vert X}(y\vert x)=\frac{1}{2\sqrt{1-x^2}},很明显Y的条件函数中存在x变量,是受X取值影响的。\\ &\textcolor{red}{值得注意的是各变量的条件分布是一个均匀分布,可以想象联合分布的支撑区域图形为一圆饼状立体,其切面为一长方形} \end{aligned} } X,YX,YXYX,YXY(X,Y){(x,y):x,y[0,1]}fX,Y(x,y)={1,0x,y[0,1]X,YUnif(0,1),fX,Y(x,y)=1X[0,1]Y[0,1],fX(x)=1,fY(y)=1(X,Y){(x,y):x2+y21}fX,Y(x,y)={π1,0x2+y21X,Y使X=x使fX,Y(x,y)=π1Y[1x2 ,1x2 ]XfX(x)=π21x2 ,fY(y)=π21y2 ,fYX(yx)=21x2 1YxX

5. 贝叶斯准则的四种形式

Y Y Y离散 Y Y Y连续
X X X离散 P ( Y = y ∣ X = x ) = P ( X = x , Y = y ) P ( Y = y ) P ( X = x ) \displaystyle P(Y=y \vert X=x)=\frac{P(X=x,Y=y)P(Y=y)}{P(X=x)} P(Y=yX=x)=P(X=x)P(X=x,Y=y)P(Y=y) f Y ( y ∣ X = x ) = P ( X = x ∣ Y = y ) f Y ( y ) P ( X = x ) \displaystyle f_Y(y \vert X=x) =\frac{P(X=x\vert Y=y)f_Y(y)}{P(X=x)} fY(yX=x)=P(X=x)P(X=xY=y)fY(y)
X X X连续 P ( Y = y ∣ X = x ) = f X ( x , Y = y ) P ( Y = y ) f X ( x ) \displaystyle P(Y=y \vert X=x)=\frac{f_X(x,Y=y)P(Y=y)}{f_X(x)} P(Y=yX=x)=fX(x)fX(x,Y=y)P(Y=y) f Y ∣ X ( y ∣ x ) = f X ∣ Y ( x , y ) f Y ( y ) f X ( x ) \displaystyle f_{Y \vert X}(y \vert x) =\frac{f_{X\vert Y}(x,y)f_Y(y)}{f_X(x)} fYX(yx)=fX(x)fXY(x,y)fY(y)

6. 全概率公式的四种形式

Y Y Y离散 Y Y Y连续
X X X离散 P ( X = x ) = ∑ y P ( X = x ∣ Y = y ) P ( Y = y ) \displaystyle P(X=x)=\sum_y P(X=x\vert Y=y)P(Y=y) P(X=x)=yP(X=xY=y)P(Y=y) P ( X = x ) = ∫ − ∞ + ∞ P ( X = x ∣ Y = y ) f Y ( y ) d y \displaystyle P(X=x)= \int_{-\infty}^{+\infty}P(X=x\vert Y=y)f_Y(y)dy P(X=x)=+P(X=xY=y)fY(y)dy
X X X连续 f X ( x ) = ∑ y f X ( x ∣ Y = y ) P ( Y = y ) \displaystyle f_X(x)= \sum_y f_X(x\vert Y=y)P(Y=y) fX(x)=yfX(xY=y)P(Y=y) f X ( x ) = ∫ − ∞ + ∞ f X ∣ Y ( x ∣ y ) f Y ( y ) d y \displaystyle f_X(x)= \int_{-\infty}^{+\infty}f_{X\vert Y}(x\vert y)f_Y(y)dy fX(x)=+fXY(xy)fY(y)dy

7. 总结两个离散变量和两个连续变量两种联合分布

两个离散型随机变量序列两个连续型随机变量序列
联合累积分布函数 F X , Y ( x , y ) = P ( X ≤ x , Y ≤ y ) F_{X,Y}(x,y)=P(X\leq x,Y\leq y) FX,Y(x,y)=P(Xx,Yy) F X , Y ( x , y ) = P ( X ≤ x , Y ≤ y ) F_{X,Y}(x,y)=P(X\leq x,Y\leq y) FX,Y(x,y)=P(Xx,Yy)
联合概率质量函数(密度函数) P ( X = x , Y = y ) 联 合 概 率 质 量 函 数 是 非 负 的 , 且 和 等 于 1 ∑ x ∑ y P ( X = x , Y = y ) = 1 \begin{aligned}&P(X=x,Y=y)\\ &联合概率质量函数是非负的,且和等于1\\ &\displaystyle\sum_x\sum_yP(X=x,Y=y)=1\end{aligned} P(X=x,Y=y)1xyP(X=x,Y=y)=1 f X , Y ( x , y ) = ∂ 2 ∂ x ∂ y F X , Y ( x , y ) 联 合 概 率 密 度 函 数 是 非 负 的 , 且 积 分 为 1 ∫ − ∞ + ∞ ∫ − ∞ + ∞ f X , Y ( x , y ) d x d y = 1 \begin{aligned} &f_{X,Y}(x,y)=\frac{\partial^2}{\partial x\partial y}F_{X,Y}(x,y)\\ &联合概率密度函数是非负的,且积分为1\\&\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}f_{X,Y}(x,y)dxdy=1\end{aligned} fX,Y(x,y)=xy2FX,Y(x,y)1++fX,Y(x,y)dxdy=1
边缘概率质量函数(密度函数) P ( X = x ) = ∑ y P ( X = x , Y = y ) = ∑ y P ( X = x ∣ Y = y ) P ( Y = y ) \begin{aligned}P(X=x)&=\sum_y P(X=x,Y=y)\\ &=\sum_y P(X=x\vert Y=y)P(Y=y)\end{aligned} P(X=x)=yP(X=x,Y=y)=yP(X=xY=y)P(Y=y) f X ( x ) = ∫ − ∞ + ∞ f X , Y ( x , y ) d y = ∫ − ∞ + ∞ f X ∣ Y ( x ∣ y ) f Y ( y ) d y \begin{aligned}f_X(x)&=\int_{-\infty}^{+\infty}f_{X,Y}(x,y)dy\\&= \int_{-\infty}^{+\infty}f_{X\vert Y}(x\vert y)f_Y(y)dy\end{aligned} fX(x)=+fX,Y(x,y)dy=+fXY(xy)fY(y)dy
条件概率质量函数(密度函数) P ( Y = y ∣ X = x ) = P ( X = x , Y = y ) P ( X = x ) = P ( X = x , Y = y ) P ( Y = y ) P ( X = x ) \begin{aligned}P(Y=y \vert X=x)&=\frac{P(X=x,Y=y)}{P(X=x)}\\ &=\frac{P(X=x,Y=y)P(Y=y)}{P(X=x)} \end{aligned} P(Y=yX=x)=P(X=x)P(X=x,Y=y)=P(X=x)P(X=x,Y=y)P(Y=y) f Y ∣ X ( y ∣ x ) = f X , Y ( x , y ) f X ( x ) = f X ∣ Y ( x , y ) f Y ( y ) f X ( x ) \begin{aligned}f_{Y \vert X}(y \vert x)&=\frac{f_{X,Y}(x,y)}{f_X(x)}\\ &=\frac{f_{X\vert Y}(x,y)f_Y(y)}{f_X(x)}\end{aligned} fYX(yx)=fX(x)fX,Y(x,y)=fX(x)fXY(x,y)fY(y)
独立性 对 于 所 有 的 x 和 y P ( X ≤ x , Y ≤ y ) = P ( X ≤ x ) P ( Y ≤ y ) P ( X = x , Y = y ) = P ( X = x ) P ( Y = y ) 对 于 所 有 的 x 和 y , P ( X = x ) > 0 , P ( Y = y ) > 0 条 件 质 量 函 数 等 于 边 缘 质 量 函 数 P ( Y = y ∣ X = x ) = P ( Y = y ) P ( X = x ∣ Y = y ) = P ( X = x ) \begin{aligned} &对于所有的x和y\\ &P(X\leq x,Y \leq y)=P(X\leq x)P(Y \leq y)\\ &P(X=x,Y=y)=P(X=x)P(Y=y)\\&对于所有的x和y,P(X=x)>0 ,P(Y=y)>0\\&\textcolor{blue}{条件质量函数等于边缘质量函数}\\&P(Y=y\vert X=x)=P(Y=y)\\&P(X=x\vert Y=y)=P(X=x)\end{aligned} xyP(Xx,Yy)=P(Xx)P(Yy)P(X=x,Y=y)=P(X=x)P(Y=y)xy,P(X=x)>0,P(Y=y)>0P(Y=yX=x)=P(Y=y)P(X=xY=y)=P(X=x) 对 于 所 有 的 x 和 y P ( X ≤ x , Y ≤ y ) = P ( X ≤ x ) P ( Y ≤ y ) f X , Y ( x , y ) = f X ( x ) f Y ( y ) 对 于 所 有 的 x 和 y , f X ( X ) > 0 , f Y ( Y ) > 0 , 条 件 密 度 函 数 等 于 边 缘 密 度 函 数 f Y ∣ X ( y ∣ x ) = f Y ( y ) f X ∣ Y ( x ∣ y ) = f X ( x ) \begin{aligned} &对于所有的x和y\\ &P(X\leq x,Y \leq y)=P(X\leq x)P(Y \leq y)\\ &f_{X,Y}(x,y)=f_X(x)f_Y(y)\\&对于所有的x和y,f_X(X)>0 ,f_Y(Y)>0,\\&\textcolor{blue}{条件密度函数等于边缘密度函数}\\&f_{Y\vert X}(y\vert x)=f_Y(y)\\&f_{X\vert Y}(x\vert y)=f_X(x)\end{aligned} xyP(Xx,Yy)=P(Xx)P(Yy)fX,Y(x,y)=fX(x)fY(y)xy,fX(X)>0,fY(Y)>0fYX(yx)=fY(y)fXY(xy)=fX(x)
LOTUS E ( g ( X , Y ) ) = ∑ x ∑ y g ( x , y ) P ( X = x , Y = y ) \displaystyle E(g(X,Y))=\sum_x\sum_yg(x,y)P(X=x,Y=y) E(g(X,Y))=xyg(x,y)P(X=x,Y=y) E ( g ( X , Y ) ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ g ( x , y ) f X , Y ( x , y ) d x d y \displaystyle E(g(X,Y))=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}g(x,y)f_{X,Y}(x,y)dxdy E(g(X,Y))=++g(x,y)fX,Y(x,y)dxdy

注 意 的 是 联 合 函 数 = Y 的 条 件 函 数 ⋅ X 的 边 缘 函 数 这 对 于 任 何 联 合 分 布 都 是 适 用 的 , 而 在 独 立 性 条 件 下 , 由 于 条 件 函 数 与 边 缘 函 数 相 等 , 于 是 联 合 函 数 = X 的 边 缘 函 数 ⋅ Y 的 边 缘 函 数 才 成 立 \color{red}注意的是\color{blue}联合函数=Y的条件函数 \cdot X的边缘函数\color{red}这对于任何联合分布都是适用的,而在独立性条件下,\\ 由于条件函数与边缘函数相等,于是\color{blue}联合函数=X的边缘函数\cdot Y的边缘函数\color{red}才成立 =YX,=XY

8. 二维LOTUS

1). 两个均与随机变量间的期望距离

  1. 对于 X , Y ∼ i . i . d U n i f ( 0 , 1 ) , E ( ∣ X − Y ∣ ) = 1 3 X,Y \overset{i.i.d}{\sim}Unif(0,1),E(|X-Y|)=\displaystyle \frac{1}{3} X,Yi.i.dUnif(0,1),E(XY)=31
  2. 对于 X , Y ∼ i . i . d U n i f ( 0 , 1 ) , M = m a x ( X , Y ) 和 L = m i n ( X , Y ) , E ( M + L ) = E ( X + Y ) = 1 X,Y \overset{i.i.d}{\sim}Unif(0,1),M=max(X,Y)和L=min(X,Y),E(M+L)=E(X+Y)=1 X,Yi.i.dUnif(0,1),M=max(X,Y)L=min(X,Y),E(M+L)=E(X+Y)=1
  3. 对于 X , Y ∼ i . i . d U n i f ( 0 , 1 ) , M = m a x ( X , Y ) 和 L = m i n ( X , Y ) , E ( M − L ) = E ( ∣ X − Y ∣ ) = 1 / 3 X,Y \overset{i.i.d}{\sim}Unif(0,1),M=max(X,Y)和L=min(X,Y),E(M-L)=E(|X-Y|)=1/3 X,Yi.i.dUnif(0,1),M=max(X,Y)L=min(X,Y),E(ML)=E(XY)=1/3

2). 两各正态随机变量间的期望距离

对于 X , Y ∼ i . i . d N ( 0 , 1 ) , E ( ∣ X − Y ∣ ) = 2 π X,Y \overset{i.i.d}{\sim}N(0,1),E(|X-Y|)=\displaystyle \frac{2}{\sqrt{\pi}} X,Yi.i.dN(0,1),E(XY)=π 2

9. 协方差与相关系数

1). 协方差

两个相互独立的随机变量函数乘积的期望
如 果 两 个 连 续 型 随 机 变 量 X , Y 相 互 独 立 , 那 么 对 于 两 个 函 数 的 任 何 连 续 函 数 h 和 g , E [ g ( X ) h ( Y ) ] = E [ g ( X ) ] E [ h ( Y ) ] , 这 一 等 式 是 非 常 重 要 的 , 是 使 用 协 方 差 判 定 两 个 随 机 变 量 是 否 相 关 的 关 键 如果两个连续型随机变量X,Y相互独立,那么对于两个函数的任何连续函数h和g,\\ E[g(X)h(Y)]=E[g(X)]E[h(Y)],这一等式是非常重要的,是使用协方差判定两个随机变量\textcolor{blue}{是否相关}的关键 XYhgE[g(X)h(Y)]=E[g(X)]E[h(Y)]使

证 明 : 设 X , Y 为 相 互 独 立 的 连 续 型 随 机 变 量 , 联 合 密 度 函 数 为 f X , Y ( X , Y ) , 于 是 有 证明:\\ 设X,Y为相互独立的连续型随机变量,联合密度函数为f_{X,Y}(X,Y),于是有 XYfX,Y(X,Y)
E [ g ( X ) h ( Y ) ] = ∫ − ∞ + ∞ ∫ − ∞ + ∞ g ( x ) h ( y ) f X , Y ( x , y ) d x d y = ∫ − ∞ + ∞ ∫ − ∞ + ∞ g ( x ) h ( y ) f X ( x ) f Y ( y ) d x d y 根 据 独 立 性 , 条 件 分 布 等 于 边 缘 分 布 = ∫ − ∞ + ∞ h ( y ) f Y ( y ) d y ∫ − ∞ + ∞ g ( x ) f X ( x ) d x = E [ h ( Y ) ] E [ g ( X ) ] \begin{aligned} E[g(X)h(Y)]&=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}g(x)h(y)f_{X,Y}(x,y)dxdy\\ &=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}g(x)h(y)f_X(x)f_Y(y)dxdy\quad根据独立性,条件分布等于边缘分布\\ &=\int_{-\infty}^{+\infty}h(y)f_Y(y)dy\int_{-\infty}^{+\infty}g(x)f_X(x)dx\\ &=E[h(Y)]E[g(X)] \end{aligned} E[g(X)h(Y)]=++g(x)h(y)fX,Y(x,y)dxdy=++g(x)h(y)fX(x)fY(y)dxdy=+h(y)fY(y)dy+g(x)fX(x)dx=E[h(Y)]E[g(X)]

协方差的性质

协方差度量了两个随机变量序列相对于期期望质的变化趋势
随机变量序列 X X X Y Y Y之间的协方差为 C o v ( X , Y ) = E ( ( X − E X ) ( Y − E Y ) ) = E ( X Y ) − E ( X ) E ( Y ) Cov(X,Y)=E((X-EX)(Y-EY))=E(XY)-E(X)E(Y) Cov(X,Y)=E((XEX)(YEY))=E(XY)E(X)E(Y)

  1. 协方差为正,则 X X X Y Y Y正相关,即一个变量值增大另一个也随之增大
  2. 协方差为负,则 X X X Y Y Y负相关,即一个变量值增大则另一个也随之减小
  3. 协方差为零,则 X X X Y Y Y不相关。但要注意的是这里的不相关只是线性层面上的不相关,也有可能存在协方差为零,但俩变量非线性层面上相关
  4. 相互独立是不相关更高一层面的概念,也就是说 { 随 机 变 量 相 互 独 立 ⇒ 随 机 变 量 不 相 关 随 机 变 量 不 相 关 ⇏ 随 机 变 量 相 互 独 立 \begin{cases}\color{blue}随机变量相互独立&\color{blue}\Rightarrow 随机变量不相关\\\color{red}随机变量不相关&\color{red}\nRightarrow 随机变量相互独立\end{cases} {
  5. 关于相互独立和不相关的关系有一个特例,那便是多元正态分布。对于服从多元正态分布的随机向量而言, 其 中 两 个 子 向 量 不 相 关 = 相 互 独 立 其中两个子向量\color{blue}不相关=相互独立 =
  6. 如 果 X 与 Y 相 互 独 立 , 则 由 E ( X Y ) = E ( X ) E ( Y ) 得 C o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) = 0 如果X与Y相互独立,则由E(XY)=E(X)E(Y)得Cov(X,Y)=E(XY)-E(X)E(Y)=0 XYE(XY)=E(X)E(Y)Cov(X,Y)=E(XY)E(X)E(Y)=0

C o v ( X , X ) = V a r ( X ) C o v ( X , Y ) = C o v ( Y , X ) C o v ( X , c ) = 0 , c 为 常 数 C o v ( a X , Y ) = a C o v ( X , Y ) C o v ( X + Y , Z ) = C o v ( X , Z ) + C o v ( Y , Z ) C o v ( X + Y , Z + W ) = C o v ( X , Z ) + C o v ( X , W ) + C o v ( Y , Z ) + C o v ( Y , W ) 类 似 于 矩 阵 运 算 性 质 V a r ( X 1 + ⋯ + X n ) = V a r ( X 1 ) + ⋯ + V a r ( X n ) + 2 ∑ i < j C o v ( X i , X j ) ⇒ 所 有 随 机 变 量 相 互 独 立 V a r ( X 1 + ⋯ + X n ) = V a r ( X 1 ) + ⋯ + V a r ( X n ) 设 Z = a + b X , W = c + d Y , 则 C o v ( Z , W ) = C o v ( a , c ) + C o v ( a , d Y ) + C o v ( b X , c ) + C o v ( b X , d Y ) = b d C o v ( X , Y ) , 于 是 很 明 显 C o v ( Z , W ) 的 符 号 , 由 b d 的 乘 积 决 定 , 如 果 b d > 0 则 C o v ( Z , W ) 的 正 负 与 C o v ( X , Y ) 相 同 , 如 果 b d < 0 则 与 C o v ( X , Y ) 相 反 \begin{aligned} &Cov(X,X)=Var(X)\\ &Cov(X,Y)=Cov(Y,X)\\ &Cov(X,c)=0,\quad c为常数\\ &Cov(aX,Y)=aCov(X,Y)\\ &Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)\\ &Cov(X+Y,Z+W)=Cov(X,Z)+Cov(X,W)+Cov(Y,Z)+Cov(Y,W)\quad 类似于矩阵运算性质\\ &Var(X_1+\cdots +X_n)=Var(X_1)+\cdots +Var(X_n)+2\sum_{i<j}Cov(X_i,X_j)\xRightarrow{所有随机变量相互独立}Var(X_1+\cdots +X_n)=Var(X_1)+\cdots +Var(X_n)\\ &设Z = a+bX,W=c+dY,则Cov(Z,W)=Cov(a,c)+Cov(a,dY)+Cov(bX,c)+Cov(bX,dY)=bdCov(X,Y),\\ &于是很明显Cov(Z,W)的符号,由bd的乘积决定,如果bd > 0则Cov(Z,W)的正负与Cov(X,Y)相同,如果bd < 0则与Cov(X,Y)相反 \end{aligned} Cov(X,X)=Var(X)Cov(X,Y)=Cov(Y,X)Cov(X,c)=0,cCov(aX,Y)=aCov(X,Y)Cov(X+Y,Z)=Cov(X,Z)+Cov(Y,Z)Cov(X+Y,Z+W)=Cov(X,Z)+Cov(X,W)+Cov(Y,Z)+Cov(Y,W)Var(X1++Xn)=Var(X1)++Var(Xn)+2i<jCov(Xi,Xj) Var(X1++Xn)=Var(X1)++Var(Xn)Z=a+bX,W=c+dY,Cov(Z,W)=Cov(a,c)+Cov(a,dY)+Cov(bX,c)+Cov(bX,dY)=bdCov(X,Y),Cov(Z,W)bdbd>0Cov(Z,W)Cov(X,Y)bd<0Cov(X,Y)

样本数据的方差与协方差

设 x 与 y 为 两 个 样 本 数 据 向 量 , x ‾ 与 y ‾ 为 俩 向 量 均 值 , n 为 它 们 的 向 量 大 小 , 两 个 去 均 值 向 量 为 , d 1 = ( x 1 − x ‾ , … , x n − x ‾ ) , d 2 = ( y 1 − y ‾ , … , y n − y ‾ ) 设x与y为两个样本数据向量,\overline{x}与\overline{y}为俩向量均值,n为它们的向量大小,两个去均值向量为,\\ d_1=(x_1-\overline{x},\ldots, x_n-\overline{x}),d_2=(y_1-\overline{y},\ldots, y_n-\overline{y}) xyxynd1=(x1x,,xnx),d2=(y1y,,yny)
方 差 { 从 最 大 似 然 解 出 发 : V a r ( x ) = 1 n ⋅ d 1 T d 1 , V a r ( y ) = 1 n ⋅ d 2 T d 2 , 从 无 偏 估 计 出 发 : V a r ( x ) = 1 n − 1 ⋅ d 1 T d 1 , V a r ( y ) = 1 n − 1 ⋅ d 2 T d 2 协 方 差 { 从 最 大 似 然 解 出 发 : C o v ( x , y ) = 1 n ⋅ d 1 T d 2 从 无 偏 估 计 出 发 : C o v ( x , y ) = 1 n − 1 ⋅ d 1 T d 2 \begin{aligned} 方差&\begin{cases} 从最大似然解出发:&Var(x)=\frac{1}{n}\cdot d_1^Td_1,Var(y)=\frac{1}{n}\cdot d_2^Td_2,\\ 从无偏估计出发:&Var(x)=\frac{1}{n-1}\cdot d_1^Td_1,Var(y)=\frac{1}{n-1}\cdot d_2^Td_2\\ \end{cases}\\ 协方差&\begin{cases} 从最大似然解出发:&Cov(x,y)=\frac{1}{n}\cdot d_1^Td_2\\ 从无偏估计出发:&Cov(x,y)=\frac{1}{n-1}\cdot d_1^Td_2 \end{cases} \end{aligned} {Var(x)=n1d1Td1Var(y)=n1d2Td2Var(x)=n11d1Td1Var(y)=n11d2Td2{Cov(x,y)=n1d1Td2Cov(x,y)=n11d1Td2

2). 相关系数

无量纲方差的更为容易的表述方式是相关系数,简单来说就是消去协方差的单位,固定方差的取值范围,以便于结果观察
随机变量序列 X X X Y Y Y的相关系数为 C o r r ( X , Y ) = C o v ( X , Y ) V a r ( X ) V a r ( Y ) \displaystyle Corr(X,Y)=\frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}} Corr(X,Y)=Var(X)Var(Y) Cov(X,Y),并且在 V a r ( X ) = 0 或 V a r ( Y ) = 0 Var(X)=0或Var(Y)=0 Var(X)=0Var(Y)=0的退化情况下无定义
样本数据的相关系数
对于样本数据向量 X X X Y Y Y而言,它们的相关系数便是去均值向量的单位向量的内积
设 x 与 y 为 两 个 样 本 数 据 向 量 , x ‾ 与 y ‾ 为 俩 向 量 均 值 , 则 d 1 = ( x 1 − x ‾ , … , x n − x ‾ ) , d 2 = ( y 1 − y ‾ , … , y n − y ‾ ) , 同 时 u 1 = d 1 ∣ ∣ d 1 ∣ ∣ , u 2 = d 2 ∣ ∣ d 2 ∣ ∣ , C o r r ( x , y ) = u 1 T u 2 = d 1 T d 2 ∣ ∣ d 1 ∣ ∣   ∣ ∣ d 2 ∣ ∣ = c o s θ θ 为 x 与 y 之 间 的 夹 角 \begin{aligned} &设x与y为两个样本数据向量,\overline{x}与\overline{y}为俩向量均值,\\ &则d_1=(x_1-\overline{x},\ldots, x_n-\overline{x}), d_2=(y_1-\overline{y},\ldots, y_n-\overline{y}),同时u_1=\frac{d_1}{||d_1||},u_2=\frac{d_2}{||d_2||},\\ &Corr(x,y)=u_1^T u_2=\frac{d_1^Td_2}{||d_1||\,||d_2||}=cos\theta\quad \theta为x与y之间的夹角 \end{aligned} xyxyd1=(x1x,,xnx),d2=(y1y,,yny)u1=d1d1,u2=d2d2,Corr(x,y)=u1Tu2=d1d2d1Td2=cosθθxy

这里顺便说一下无放回抽样超几何分布的方差和放回抽样二项分布的方差之间的联系

  1. 已 知 X ∼ H G e o m ( w , b , n ) 且 V a r ( X ) = N − n N − 1 n p ( 1 − p ) , Y ∼ B i n ( n , p ) 且 V a r ( Y ) = n p ( 1 − p ) , N 为 总 数 , n 为 抽 样 次 数 已知X\sim HGeom(w,b,n)且Var(X)=\frac{N-n}{N-1}np(1-p),Y\sim Bin(n,p)且Var(Y)=np(1-p),\\N为总数,n为抽样次数 XHGeom(w,b,n)Var(X)=N1Nnnp(1p)YBin(n,p)Var(Y)=np(1p)Nn
  2. 很 明 显 在 有 限 次 的 抽 样 时 只 要 总 数 N 足 够 大 即 l i m N → ∞ N − n N − 1 = 1 那 么 V a r ( X ) → n p ( 1 − p ) = V a r ( Y ) 很明显在有限次的抽样时只要总数N足够大即\underset{N\to \infty}{lim}\frac{N-n}{N-1}=1那么Var(X)\to np(1-p)=Var(Y) NNlimN1Nn=1Var(X)np(1p)=Var(Y)
  3. 从直观上考虑只要样本总数足够大,每次抽出一个样本的话对于下一次样本抽取的概率几乎没有影响,那么无放回抽样就会近似于放回抽样

10. 多项式分布

简单来说多项式分布其实就是进行了多次的二项划分所得到的的分布
设 有 n 个 对 象 和 k 个 类 别 , 每 个 对 象 都 独 立 的 属 于 其 中 的 一 种 类 别 。 某 对 象 属 于 第 j 类 的 概 率 为 p j , 其 中 p j ≥ 0 , 且 ∑ j = 1 k p j = 1 。 令 X 1 为 类 别 1 中 的 对 象 数 目 , X 2 为 类 别 2 中 对 象 数 目 , 其 余 以 此 类 推 , 因 此 X 1 + ⋯ + X k = n , 则 X = ( X 1 , … , X k ) 服 从 参 数 为 n 和 p = ( p 1 , … p k ) 的 多 项 式 分 布 。 记 作 X ∼ M u l t k ( n , p ) 设有n个对象和k个类别,每个对象都独立的属于其中的一种类别。某对象属于第j类的概率为p_j,其中p_j\geq 0,\\且\displaystyle \sum_{j=1}^kp_j=1。令X_1为类别1中的对象数目,X_2为类别2中对象数目,其余以此类推,因此X_1+\cdots +X_k=n,\\则X=(X_1,\ldots, X_k)服从参数为n和p=(p_1,\ldots p_k)的多项式分布。记作X\sim Mult_k(n,p) nkjpj,pj0,j=1kpj=1X11X22X1++Xk=nX=(X1,,Xk)np=(p1,pk)XMultk(n,p)

  1. 多 项 式 分 布 的 联 合 概 率 质 量 函 数 , P ( X 1 = n 1 , ⋯   , X k = n k ) = n ! n 1 ! n 2 ! ⋯ n k ! ⋅ p 1 n 1 p 2 n 2 ⋯ p k n k ( n 1 + n 2 + ⋯ + n k = n ) 其 中 n ! n 1 ! n 2 ! ⋯ n k ! 为 满 足 分 类 条 件 的 所 有 可 能 的 取 样 方 法 , 这 是 不 考 虑 顺 序 的 取 样 \textcolor{blue}{多项式分布的联合概率质量函数},\\\displaystyle P(X_1=n_1,\cdots,X_k=n_k)=\frac{n!}{n_1!n_2!\cdots n_k!}\cdot p_1^{n_1}p_2^{n_2}\cdots p_k^{n_k}\quad(n_1+n_2+\cdots+n_k=n)\\其中\displaystyle \frac{n!}{n_1!n_2!\cdots n_k!}为满足分类条件的所有可能的取样方法,这是不考虑顺序的取样 ,P(X1=n1,,Xk=nk)=n1!n2!nk!n!p1n1p2n2pknk(n1+n2++nk=n)n1!n2!nk!n!
  2. 系 数 的 解 释 , 关 于 n ! n 1 ! n 2 ! ⋯ n k ! 的 求 法 大 致 分 两 种 , 一 , 组 合 数 计 算 法 , 这 是 最 直 观 的 算 法 , 从 n 中 取 n 1 个 数 那 么 组 合 数 为 ( n n 1 ) , n 中 取 出 n 1 个 数 后 再 从 剩 余 ( n − n 1 ) 个 数 中 取 出 n 2 个 数 , 其 组 合 数 为 ( n − n 1 n 2 ) , 再 从 剩 余 ( n − n 1 − n 2 ) 中 取 出 n 3 , 组 合 数 为 ( n − n 1 − n 2 n 3 ) , 依 次 类 推 直 到 最 后 一 次 取 出 n k 的 组 合 为 ( n − n 1 − n 2 − ⋯ − n k − 1 n k ) , 将 全 部 组 合 数 乘 起 来 可 得 n ! n 1 ! ( n − n 1 ) ! ⋅ ( n − n 1 ) ! n 2 ! ( n − n 1 − n 2 ) ! ⋅ ⋯ ⋅ ( n − n 1 − n 2 − ⋯ − n k − 2 ) ! n k − 1 ! ( n − n 1 − n 2 − ⋯ − n k − 2 − n k − 1 ) ! ⋅ ( n − n 1 − n 2 − ⋯ − n k − 2 − n k − 1 ) ! n k ! ( n − n 1 − n 2 − ⋯ − n k − 2 − n k − 1 − n k ) ! = 约 分 n ! n 1 ! n 2 ! ⋯ n k ! 二 , 重 组 排 序 法 , 这 种 办 法 类 似 于 对 一 行 字 母 " S T A T I S T I C S " 进 行 重 新 排 序 总 共 能 得 到 多 少 种 不 同 的 排 序 一 样 , 把 字 母 排 开 就 相 当 于 把 n 个 对 象 排 开 , 字 母 所 显 示 的 信 息 就 是 对 每 个 对 象 所 分 配 的 类 别 , 比 如 说 5 个 对 象 , 3 个 种 类 , 其 中 X 1 = 3 , X 2 = 2 , X 3 = 1 , 那 么 排 列 可 以 是 k 1 k 2 k 3 k 1 k 2 k 1 , 也 可 以 是 k 1 k 1 k 2 k 1 k 2 k 3 , 这 些 所 有 可 能 的 排 序 种 类 便 是 分 类 条 件 下 的 所 有 可 能 的 取 样 方 法 数 为 5 ! 3 ! 2 ! 1 ! = 10 , 分 母 为 所 有 可 能 的 排 序 数 目 , 分 子 每 一 个 n j 为 每 一 类 别 对 象 的 重 复 排 序 数 目 \textcolor{blue}{系数的解释},关于\displaystyle \frac{n!}{n_1!n_2!\cdots n_k!}的求法大致分两种,\\一,组合数计算法,这是最直观的算法,从n中取n_1个数那么组合数为{n \choose n_1},n中取出n_1个数后再从剩余\\(n-n_1)个数中取出n_2个数,其组合数为{n-n_1 \choose n_2},再从剩余(n-n_1-n_2)中取出n_3,组合数为\\{n-n_1-n_2 \choose n_3},依次类推直到最后一次取出n_k的组合为{n-n_1-n_2-\cdots-n_{k-1}\choose n_k},将全部组合数乘起来可得\\ \frac{n!}{n_1!(n-n_1)!}\cdot \frac{(n-n_1)!}{n_2!(n-n_1-n_2)!}\cdot\cdots\cdot\frac{(n-n_1-n_2-\cdots-n_{k-2})!}{n_{k-1}!(n-n_1-n_2-\cdots-n_{k-2}-n_{k-1})!}\cdot\frac{(n-n_1-n_2-\cdots-n_{k-2}-n_{k-1})!}{n_k!(n-n_1-n_2-\cdots-n_{k-2}-n_{k-1}-n_k)!}\xlongequal{约分}\frac{n!}{n_1!n_2!\cdots n_{k}!}\\ 二,重组排序法,这种办法类似于对一行字母"STATISTICS"进行重新排序总共能得到多少种不同的排序一样,\\ 把字母排开就相当于把n个对象排开,字母所显示的信息就是对每个对象所分配的类别,比如说5个对象,3个种类,\\其中X_1=3,X_2=2,X_3=1,那么排列可以是k_1k_2k_3k_1k_2k_1,也可以是k_1k_1k_2k_1k_2k_3,这些所有可能的排序种类\\便是分类条件下的所有可能的取样方法数为\frac{5!}{3!2!1!}=10,分母为所有可能的排序数目,分子每一个n_j为每一\\类别对象的重复排序数目 ,n1!n2!nk!n!,nn1(n1n)nn1(nn1)n2(n2nn1)(nn1n2)n3(n3nn1n2)nk(nknn1n2nk1)n1!(nn1)!n!n2!(nn1n2)!(nn1)!nk1!(nn1n2nk2nk1)!(nn1n2nk2)!nk!(nn1n2nk2nk1nk)!(nn1n2nk2nk1)! n1!n2!nk!n!"STATISTICS"n53X1=3,X2=2,X3=1k1k2k3k1k2k1k1k1k2k1k2k3便3!2!1!5!=10nj
  3. 多 项 式 边 缘 分 布 , 若 X ∼ M u l t k ( n , p ) , 则 X j ∼ B i n ( n , p j ) , 其 实 这 很 好 理 解 , 就 是 在 第 j 个 类 别 中 分 到 的 对 象 数 目 所 服 从 的 分 布 , 那 么 只 关 注 j 类 的 话 , 样 本 只 会 被 分 为 两 类 , 分 到 j 中 的 和 没 有 分 到 j 中 的 , 这 很 明 显 是 服 从 二 项 式 分 布 的 \textcolor{blue}{多项式边缘分布},若X\sim Mult_k(n,p),则X_j\sim Bin(n,p_j),其实这很好理解,\\就是在第j个类别中分到的对象数目所服从的分布,那么只关注j类的话,样本只会被分为两类,\\分到j中的和没有分到j中的,这很明显是服从二项式分布的 ,XMultk(n,p)XjBin(n,pj),jjjj
  4. 多 项 式 随 机 变 量 的 合 并 , ( X 1 + X 2 , X 3 , ⋯   , X k ) ∼ M u l t k − 1 ( n , ( p 1 + p 2 , p 3 , ⋯   , p n ) ) \textcolor{blue}{多项式随机变量的合并},(X_1+X_2,X_3,\cdots,X_k)\sim Mult_{k-1}(n,(p_1+p_2,p_3,\cdots,p_n)) (X1+X2,X3,,Xk)Multk1(n,(p1+p2,p3,,pn))
  5. 多 项 式 随 机 变 量 的 条 件 概 率 , 给 定 类 别 1 中 有 n 1 个 对 象 , 则 其 余 的 对 象 落 入 类 别 2 至 k 其 中 一 个 类 别 j 的 概 率 为 P ( 在 类 别 j 中 ∣ 不 在 类 别 1 中 ) = P ( 在 类 别 j 中 , 不 在 类 别 1 中 ) P ( 不 在 类 别 1 中 ) = p j p 2 + ⋯ p k \textcolor{blue}{多项式随机变量的条件概率},给定类别1中有n_1个对象,则其余的对象落入类别2至k其中一个类别j的概率为\\ \displaystyle P(在类别j中| 不在类别1中)=\frac{P(在类别j中,不在类别1中)}{P(不在类别1中)}=\frac{p_j}{p_2+\cdots p_k} 1n12kjP(j1)=P(1)P(j,1)=p2+pkpj
  6. 多 项 式 条 件 分 布 , 若 X ∼ M u l t k ( n , p ) , 则 ( X 2 , ⋯   , X k ) ∣ X 1 = n 1 ∼ M u l t k − 1 ( ( n − n 1 ) , ( p 2 ′ , ⋯   , p k ′ ) ) , 其 中 p j ′ = p j / ( p 2 + ⋯ + p k ) \textcolor{blue}{多项式条件分布},若X\sim Mult_k(n,p),则(X_2,\cdots,X_k)|X_1=n_1 \sim Mult_{k-1}((n-n_1),(p_2^{'},\cdots,p_k^{'})),其中p_j^{'}=p_j/(p_2+\cdots +p_k) XMultk(n,p)(X2,,Xk)X1=n1Multk1((nn1),(p2,,pk)),pj=pj/(p2++pk)
  7. 多 项 式 中 的 协 方 差 , 令 ( X 1 , ⋯ X k ) ∼ M u l t k ( n , p ) , 其 中 p = ( p 1 , … p k ) , 则 当 i ≠ j 时 , C o v ( X i , X j ) = − n p i p j , 是 负 相 关 \textcolor{blue}{多项式中的协方差},令(X_1,\cdots X_k)\sim Mult_k(n,p),其中p=(p_1,\ldots p_k),则当i\neq j时,Cov(X_i,X_j)=-np_ip_j,是负相关 (X1,Xk)Multk(n,p),p=(p1,pk)i=jCov(Xi,Xj)=npipj,这个其实也挺好理解分配到 X i X_i Xi中的对象增多,那么可能分配到 X j X_j Xj中的对象数就会减少
    关于多项式条件分布的直观说明,这就像有100个小球会分别独立随机蹦到10个瓶子里中的一个,而当你故意忽视掉第一个瓶子,只观察剩余九个瓶子的时候,那么小球蹦入这九个瓶子的概率在该条件下就会改变重新归一化

11. 多元正态分布

一 个 随 机 向 量 X = ( X 1 , ⋯ X k ) 被 称 为 服 从 多 元 正 态 分 布 , 如 果 X j 的 任 意 线 性 组 合 都 服 从 正 态 分 布 , 也 就 是 说 要 求 t 1 X 1 + ⋯ t k X k 对 于 任 何 常 数 t 1 , ⋯ t k 都 服 从 正 态 分 布 , 特 别 的 是 如 果 t 1 X 1 + ⋯ t k X k 是 一 个 常 数 比 如 0 , 那 么 认 为 它 服 从 正 态 分 布 , 属 于 方 差 为 0 的 退 化 正 态 分 布 一个随机向量X= (X_1,\cdots X_k)被称为服从多元正态分布,如果X_j的任意线性组合都服从正态分布,也就是说要求\\t_1X_1+\cdots t_kX_k对于任何常数t_1,\cdots t_k都服从正态分布,特别的是如果t_1X_1+\cdots t_kX_k是一个常数比如0, \\那么认为它服从正态分布,属于方差为0的退化正态分布 X=(X1,Xk)Xj线t1X1+tkXkt1,tkt1X1+tkXk00退
需要注意的几点

  1. 明确多元中元数的定义,元数只等于随机向量中元素的个数,比如会有 ( X , X + Y , Y − Z ) (X,X+Y,Y-Z) (X,X+Y,YZ)这种向量,虽然元素中存在变量计算,但总元素不变依然是3个,所以这个随机向量服从的是三元正态分布
  2. 随机向量中的变量之间是否独立没有要求,只需要他们的线性组合服从正态分布即可
  3. ( X 1 , ⋯ X k ) (X_1,\cdots X_k) (X1,Xk)服从多元正态分布,则随机向量中的任一元素 X j X_j Xj的边缘分布也是正态分布,其实也就是 t j t_j tj之外其他系数全是0的组合结果,同理也可以推导出其子向量也服从多元正态分布
  4. 边缘分布服从正态分布的几个随机变量组成的随机向量,却不一定服从多元正态分布,也就是说几个正态分布变量的线性组合不一定服从正态分布
  5. 由于独立正态随机变量的和一定服从正态分布,所以由独立正态随机变量所构成的随机向量一定服从多元正态分布
  6. 作为5项的延伸,元素是独立正态随机变量线性组合的随机向量同样服从多元正态分布,比如若 X , Y ∼ i . i . d N ( 0 , 1 ) X,Y\overset{i.i.d}{\LARGE\sim}N(0,1) X,Yi.i.dN(0,1)
    ( X + 2 Y , 3 X + 5 Y ) (X+2Y,3X+5Y) (X+2Y,3X+5Y)服从二元正态分布
  7. X = ( X 1 ⋯   , X n ) X=(X_1\cdots,X_n) X=(X1,Xn) Y = ( Y 1 ⋯   , Y m ) Y=(Y_1\cdots,Y_m) Y=(Y1,Ym)均是多元正态随机向量,且 X X X Y Y Y相互独立,则级联随机向量 W = ( X 1 ⋯   , X n , Y 1 ⋯   , Y m ) \\W=(X_1\cdots,X_n,Y_1\cdots,Y_m) W=(X1,XnY1,Ym)同样服从多元正态分布
  8. X ∼ N ( μ 1 , σ 1 2 ) , Y ∼ N ( μ 2 , σ 2 2 ) X\sim N(\mu_1,\sigma_1^2),Y \sim N(\mu_2,\sigma_2^2) XN(μ1,σ12),YN(μ2,σ22),且两随机变量相互独立,则 f X , Y ( x , y ) = 1 2 π σ 1 σ 2 e − ( x − μ 1 ) 2 2 σ 1 2 − ( y − μ 2 ) 2 2 σ 2 2 \displaystyle f_{X,Y}(x,y)=\frac{1}{2\pi\sigma_1\sigma_2}e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}-\frac{(y-\mu_2)^2}{2\sigma_2^2}} fX,Y(x,y)=2πσ1σ21e2σ12(xμ1)22σ22(yμ2)2
  9. X ∼ N ( 0 , 1 ) , Y ∼ N ( 0 , 1 ) X\sim N(0,1),Y \sim N(0,1) XN(0,1),YN(0,1),且两随机变量相互独立,则 f X , Y ( x , y ) = 1 2 π e − x 2 + y 2 2 \displaystyle f_{X,Y}(x,y)=\frac{1}{2\pi}e^{-\frac{x^2+y^2}{2}} fX,Y(x,y)=2π1e2x2+y2
  10. 对于二元正态随机向量 ( X , Y ) (X,Y) (X,Y),如果一已知它的边缘分布为 N ( 0 , 1 ) N(0,1) N(0,1),相关系数 ρ ∈ ( − 1 , 1 ) , τ = 1 − ρ 2 \rho\in (-1,1),\tau=\sqrt{1-\rho^2} ρ(1,1)τ=1ρ2 ,则其联合概率密度函数为 f X , Y ( x , y ) = 1 2 π τ e − x 2 + y 2 − 2 ρ x y 2 τ 2 \displaystyle f_{X,Y}(x,y)=\frac{1}{2\pi \tau}e^{\Large-\frac{x^2+y^2-2\rho xy}{2\tau^2}} fX,Y(x,y)=2πτ1e2τ2x2+y22ρxy
  11. 对 于 n 元 正 态 分 布 随 机 向 量 X = ( X 1 , X 2 , ⋯ X n ) , 其 中 E ( X j ) = μ j , V a r ( X j ) = σ j 2 该 随 机 向 量 的 联 合 密 度 函 数 的 定 义 式 为 f X ( x = ( x 1 , ⋯ x n ) ) = 1 ( 2 π ) n / 2 ∣ Σ ∣ 1 / 2 e − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) 式 中 所 有 向 量 默 认 为 列 向 量 , T 为 转 置 符 号 , μ 为 均 值 向 量 即 μ = ( μ 1 , ⋯   , μ n ) T , x − μ = ( x 1 − μ 1 , x 2 − μ 2 , ⋯   , x n − μ n ) T Σ 为 协 方 差 矩 阵 , ∣ Σ ∣ 是 矩 阵 的 行 列 式 , Σ − 1 是 Σ 的 逆 矩 阵 其 中 Σ = { C o v ( X 1 , X 1 ) C o v ( X 1 , X 2 ) ⋯ C o v ( X 1 , X n ) C o v ( X 2 , X 1 ) C o v ( X 2 , X 2 ) ⋯ C o v ( X 2 , X n ) ⋮ ⋮ ⋱ ⋮ C o v ( X n , X 1 ) C o v ( X n , X 2 ) ⋯ C o v ( X n , X n ) } 若 随 机 向 量 中 的 所 有 分 量 互 相 独 立 , 则 Σ = { σ 1 2 0 ⋯ 0 0 σ 2 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ σ n 2 } 对于n元正态分布随机向量X=(X_1,X_2,\cdots X_n),其中E(X_j)=\mu_j,Var(X_j)=\sigma_j^2\\ 该随机向量的联合密度函数的定义式为 \displaystyle f_X(x=(x_1,_\cdots x_n))=\frac{1}{(2\pi)^{n/2}{|\Sigma|^{1/2}}}e^{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)}\\ 式中所有向量默认为列向量,T为转置符号,\\ \mu为均值向量即\mu=(\mu_1,\cdots,\mu_n)^T, x - \mu=(x_1-\mu_1,x_2-\mu_2,\cdots,x_n-\mu_n)^T\\ \Sigma为协方差矩阵,|\Sigma|是矩阵的行列式,\Sigma^{-1}是\Sigma的逆矩阵\\ 其中\Sigma=\begin{Bmatrix}Cov(X_1,X_1)&Cov(X_1,X_2)&\cdots &Cov(X_1,X_n)\\Cov(X_2,X_1)&Cov(X_2,X_2)&\cdots&Cov(X_2,X_n)\\\vdots&\vdots&\ddots&\vdots\\Cov(X_n,X_1)&Cov(X_n,X_2)&\cdots&Cov(X_n,X_n)\end{Bmatrix}\\ 若随机向量中的所有分量互相独立,则\Sigma=\begin{Bmatrix}\sigma_1^2&0&\cdots &0\\0&\sigma_2^2&\cdots&0\\\vdots&\vdots&\ddots&\vdots\\0&0&\cdots&\sigma_n^2\end{Bmatrix} nX=(X1,X2,Xn)E(Xj)=μj,Var(Xj)=σj2fX(x=(x1,xn))=(2π)n/2Σ1/21e21(xμ)TΣ1(xμ)Tμμ=(μ1,,μn)T,xμ=(x1μ1,x2μ2,,xnμn)TΣΣ,Σ1ΣΣ=Cov(X1,X1)Cov(X2,X1)Cov(Xn,X1)Cov(X1,X2)Cov(X2,X2)Cov(Xn,X2)Cov(X1,Xn)Cov(X2,Xn)Cov(Xn,Xn)Σ=σ12000σ22000σn2
  12. 正 态 分 布 独 有 特 征 1 : \color{blue}正态分布独有特征1: 1:一般来说俩变量不相关无法得出相互独立,随机变量可以是不相关但非独立的。但对于一个服从二元正态分布的随机向量中的分量X,Y的而言,不相关意味着相互独立,也就是说,若 X X X服从多元正态分布, X = ( X 1 , X 2 ) X=(X_1,X_2) X=(X1,X2),其中 X 1 X_1 X1 X 2 X_2 X2是子向量,且 X 1 X_1 X1的每一个分量与 X 2 X_2 X2的任意分量都不相关,则 X 1 X_1 X1 X 2 X_2 X2是相互独立的,该性质引申到二元以上的多元正态分布随机向量同样成立
  13. 正 态 分 布 独 有 特 征 2 : \color{blue}正态分布独有特征2: 2: X 1 , ⋯ X n X_1,\cdots X_n X1,Xn独立同分布于 N ( μ , σ 2 ) , 且 n ≥ 2 N(\mu,\sigma^2),且n\geq 2 N(μ,σ2)n2,则样本均值与样本方差是相互独立的 X j X_j Xj若服从任何其他分布,该命题将会不成立
  14. 二 元 正 态 随 机 数 的 生 成 : \color{blue}二元正态随机数的生成: :假设已知独立同分布的随机变量序列 X , Y ∼ N ( 0 , 1 ) X,Y \sim N(0,1) X,YN(0,1),如果希望生成一个二元正态随机向量 ( Z , W ) (Z,W) (Z,W)。那么可以使用如下形式的 ( Z , W ) (Z,W) (Z,W) { Z = X W = ρ X + 1 − ρ 2 Y ρ = C o r r ( Z , W ) 也 就 是 相 关 系 数 \begin{cases}&Z=X\\&W=\rho X+\sqrt{1-\rho^2}Y\end{cases}\rho=Corr(Z,W)也就是相关系数 {Z=XW=ρX+1ρ2 Yρ=Corr(Z,W)
    如此可以通过调整 ρ \rho ρ的取值变化,从而获得希望的相关系数的二元正态随机向量。
    该 联 立 式 的 意 义 在 于 使 用 两 个 独 立 的 最 基 本 的 正 态 分 布 变 量 来 生 成 一 个 指 定 的 二 元 正 态 随 机 向 量 , 向 量 中 元 素 之 间 的 相 关 系 数 是 可 以 自 定 的 , 边 缘 分 布 是 标 准 正 态 分 布 N ( 0 , 1 ) \color{red}该联立式的意义在于使用两个独立的最基本的正态分布变量来生成一个指定的二元正态随机向量,\\向量中元素之间的相关系数是可以自定的,边缘分布是标准正态分布N(0,1) 使N(0,1)
  15. 联 合 矩 母 函 数 : \color{blue}联合矩母函数: 一个多元正态随机向量的联合矩母函数 ( X 1 , ⋯   , X k ) (X_1,\cdots,X_k) (X1,,Xk)的联合矩母函数为
    E ( e t 1 X 1 + ⋯ + t k X k ) = e x p ( t 1 E ( X 1 ) + ⋯ + t k E ( X k ) + 1 2 V a r ( t 1 X 1 + ⋯ + t k X k ) ) E(e^{t_1X_1+\cdots+t_kX_k})=exp(t_1E(X_1)+\cdots+t_kE(X_k)+\frac{1}{2}Var(t_1X_1+\cdots+t_kX_k)) E(et1X1++tkXk)=exp(t1E(X1)++tkE(Xk)+21Var(t1X1++tkXk))

以下为根据10条中的二元正态分布的联合密度函数所画的三种相关系数下的二元函数图形以及它的等量线

在这里插入图片描述
ρ = 0 , 即 两 个 正 态 分 布 变 量 相 互 独 立 \rho=0,即两个正态分布变量相互独立 ρ=0
在这里插入图片描述
ρ = 0.75 , 即 两 个 正 态 分 布 变 量 相 互 正 相 关 \rho = 0.75,即两个正态分布变量相互正相关 ρ=0.75
在这里插入图片描述
ρ = − 0.75 , 即 两 个 正 态 分 布 变 量 相 互 负 相 关 \rho = -0.75,即两个正态分布变量相互负相关 ρ=0.75

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值