概率论自用笔记

服从分布的符号

  • (非离散型变量)服从均匀分布: X ~ U ( a , b ) X~U(a,b) XU(a,b)
  • (非离散型变量)服从指数分布: X ~ E x p ( λ ) X~Exp(\lambda) XExp(λ)
  • 服从正态分布: X ~ N ( μ , σ 2 ) X~N( \mu , \sigma^2) XN(μ,σ2)
  • (离散型变量)服从几何分布: X ~ G ( k , p ) X~G(k,p) XG(k,p)
  • (离散型变量)服从二项分布(伯努利分布): X ~ B ( n , p ) X~B(n,p) XB(n,p)
  • (离散型变量)服从泊松分布(用来近似二项分布): X ~ P ( k , λ ) X~P(k,\lambda) XP(k,λ)

由简入繁

先从单个事件和单个事件的条件概率说起,再到事件变量(包括离散型变量和连续性变量),再到变量的概率密度函数(pdf),再到变量的分布函数(cdf),再到多事件变量的联合概率密度函数、联合分布。
由于离散型随机变量的离散性,所以往往离散型变量更容易理解,更容易做,因为只是各个离散型变量的相加,但连续型变量由于使用函数表示变量,使得其看似“复杂许多”,其实累加反映在函数上,就是函数积分,不过是把累加操作对应成了积分操作而已。
不管是离散型还是连续型,核心思想都是一样的。
由于一维变量和离散型变量的思想过于简单,不再赘述。

连续型变量的pdf和cdf

pdf积分变成cdf,cdf求导得到pdf。
cdf定义:
对于连续型变量 X X X来说,
F X ( x ) = ∫ − ∞ x P ( u ) d u F_X(x)=\int^x_{-\infty}P(u)du FX(x)=xP(u)du其中函数 P ( x ) P(x) P(x)是pdf, F X F_X FX是cdf。

联合概率密度函数

无非是个多元的概率密度函数罢了

联合分布函数

由于pdf和cdf的关系,自然要求积分,由于多元,所以要多次积分,对于变量是 x x x y y y的二元函数来说,要分别对 x x x y y y求两次积分。

边缘分布

此分布仅仅对于多元函数来说的。
假设一个联合分布有 X X X Y Y Y两个变量,则 X X X的边缘分布就“不考虑 Y Y Y",体现在cdf分布函数上就是Y的上下界分别取 + ∞ +\infty + − ∞ -\infty
P X ( X = x ∗ ) = ∫ − ∞ x ∗ ∫ − ∞ + ∞ P X Y ( s , t ) d t d s P_{X}(X=x^*)=\int^{x^*}_{-\infty}\int^{+\infty}_{-\infty}{P_{XY}(s,t)dtds} PX(X=x)=x+PXY(s,t)dtds

体现在cdf上的话,就是把其他“被边缘”的变量lim到无穷就可以了。
一下是 X X X的边缘概率分布函数, Y Y Y被“边缘了,所以取y趋于无穷:
F X = lim ⁡ y → + ∞ F X Y F_{X}=\lim_{y \to +\infty}F_{XY} FX=y+limFXY

条件分布

对应于条件概率,显然有pdf一定可以有cdf,此cdf即为”条件分布“。
其实其核心思想和普通条件分布并无差别。
P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\frac {P(AB)}{P(B)} P(AB)=P(B)P(AB)
由于条件已经发生,所以样本空间的总体发生了变化,要求更新后的pdf和cdf,只需在新的条件下得到要求的概率除以新的样本空间就可以了。
体现在公式上,是符合条件的联合分布除以条件变量的边缘分布。设定条件在 y = y ∗ y=y* y=y时,积累到 x = x ∗ x=x* x=x的cdf:
F X Y ( X = x ∗ ∣ Y = y ∗ ) = ∫ − ∞ x ∗ P X Y ( u , y ∗ ) d u P Y ( y ∗ ) F_{XY}(X=x^*|Y=y^*)=\frac {\int^{x^*}_{-\infty}P_{XY}(u,y^*)du}{P_{Y}(y^*)} FXY(X=xY=y)=PY(y)xPXY(u,y)du

变量独立性的判别

其实遵从的是最简单的条件,以下条件任意一条即可。

  • P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B) P(AB)=P(A)P(B) 满足此即可判定AB相互独立,反映在cdf上,其实就是两个函数的每个点相乘等于其联合分布的对应点而已,宏观看起来,无非就是两个函数相乘等于概率密度函数,也就是 P X Y = P X ∗ P Y P_{XY}=P_X*P_Y PXY=PXPY
  • 相应的,pdf可以判定,cdf也可以判定,因为积分操作是线性的 F X Y = F X ∗ F Y F_{XY}=F_X*F_Y FXY=FXFY
  • 与其他变量的联合分布的边缘密度等于自己的概率密度,则相互独立。其对应条件概率 P ( A ∣ B ) = P ( A ) P(A|B)=P(A) P(AB)=P(A)条件,反映在连续性变量中,就是 P X Y ( x ∣ y ) = P X ( x ) = P X Y ( x , y ) P Y ( y ) P_{XY}(x|y)=P_X(x)=\frac{P_{XY}(x,y)}{P_Y(y)} PXY(xy)=PX(x)=PY(y)PXY(x,y)
  • 其实第三条和第一条都算一个equation,变换下denominator和numerator就可以了。

构造分布

1维

离散型变量太过简单,略过。
假设高斯分布概率密度函数为 G ( x ) G(x) G(x),构造 y = Σ i = 1 k x i 2 y=\Sigma_{i=1}^{k}x_i^2 y=Σi=1kxi2,可用 y y y构造新的样本空间。(本例为chi-square分布,其中 k k k是卡方分布的自由度)。

多维

离散型变量skip it。
同样,假设新的连续型变量 z ( x , y ) z(x,y) z(x,y)已经给出,则其对应的pdf可对应解出。有了pdf,可二重积分求出cdf。
计算相对复杂,主要是理解思想。

期望

雷打不动的 s u m ( x P ( x ) ) sum(xP(x)) sum(xP(x))。当然期望不总是存在的,当且仅当 s u m ( x P ( x ) ) sum(xP(x)) sum(xP(x))绝对收敛,期望才存在。

  • 离散型: ∑ i N x i P ( x i ) \sum_{i}^{N}x_iP(x_i) iNxiP(xi)
  • 连续型: ∫ − ∞ + ∞ x P ( x ) \int_{-\infty}^{+\infty}xP(x) +xP(x)
变量函数与期望

其实就是用一个变量构造另一个变量,看对于其期望的影响。对于 g ( x ) = 4 x g(x)=4x g(x)=4x,这个变换

  • 离散型: ∑ i N g ( x i ) P ( x i ) \sum_{i}^{N}g(x_i)P(x_i) iNg(xi)P(xi)
  • 连续型: ∫ − ∞ + ∞ g ( x ) P ( x ) \int_{-\infty}^{+\infty}g(x)P(x) +g(x)P(x)
多维

对于非独立变量 x x x, y y y,对于变换 z = 2 x + y 2 z=2x+y^2 z=2x+y2的变换(对于独立变量组成的新变量,其期望不过是两个独立的相加,毕竟相互不影响,所以只讨论有联合分布的变量):

  • 离散型: ∑ i N ∑ j N z ( x i , y j ) P ( x i , y j ) \sum_{i}^{N}\sum_{j}^{N}z(x_i,y_j)P(x_i,y_j) iNjNz(xi,yj)P(xi,yj)
  • 连续型: ∫ − ∞ + ∞ ∫ − ∞ + ∞ z ( x , y ) P ( x , y ) d x d y \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}z(x,y)P(x,y)dxdy ++z(x,y)P(x,y)dxdy
  • 其实这条性质和期望的线性性质有些重合。
  • 此性质可以组合使用,比如对于于变换 z = 2 x + y 2 z=2x+y^2 z=2x+y2,不管 x x x y y y是否独立,可以看成以 y 2 y^2 y2为整体的 B B B 2 x 2x 2x作为 A A A,求出AB期望后,可以用线性性质求组合期望。
不仅只有变量

上面列举的是一个分布对于某个变量 x x x或者多维 X X X的期望。而分布A P ( A ) P(A) P(A)也可以对另一个分布B P ( B ) P(B) P(B)求期望。
可以标识为 E P ( B ) [ P ( A ) ] = 某个表达式 E_{P(B)}[P(A)]=某个表达式 EP(B)[P(A)]=某个表达式
期望是线性操作,所以对于任何变量: E ( c X + b ) = c E ( X ) + b E(cX+b)=cE(X)+b E(cX+b)=cE(X)+b E ( X + Y ) = E ( X ) + E ( Y ) E(X+Y)=E(X)+E(Y) E(X+Y)=E(X)+E(Y)

X X X Y Y Y独立时, E ( X Y ) = E ( X ) E ( Y ) E(XY)=E(X)E(Y) E(XY)=E(X)E(Y)

条件期望

不过是一个已经取了定值的期望而已,假设 y = y ∗ y=y* y=y。条件期望有期望的一切性质

  • 离散型: E ( X ∣ Y = y ∗ ) = ∑ i N z ( x i , y ∗ ) P ( x i , y ∗ ) E(X|Y=y*)=\sum_{i}^{N}z(x_i,y*)P(x_i,y*) E(XY=y)=iNz(xi,y)P(xi,y)
  • 连续型: E ( X ∣ Y = y ∗ ) = ∫ − ∞ + ∞ z ( x i , y ∗ ) P ( x i , y ∗ ) E(X|Y=y*)=\int_{-\infty}^{+\infty}z(x_i,y*)P(x_i,y*) E(XY=y)=+z(xi,y)P(xi,y)

方差

其本身的定义是, D ( X ) = E ( ( X − E ( X ) ) 2 ) D(X)=E((X-E(X))^2) D(X)=E((XE(X))2),则由期望运算法则,得出 D ( X ) = E ( X 2 ) − E ( X ) 2 D(X)=E(X^2)-E(X)^2 D(X)=E(X2)E(X)2,可用期望求得方差。
性质:

  • D ( c X ) = x 2 D ( X ) D(cX)=x^2D(X) D(cX)=x2D(X)
  • D ( X ± Y ) = D ( X ) + D ( Y ) + 2 C o v ( X , Y ) 。 D(X \pm Y)=D(X)+D(Y)+2Cov(X,Y)。 D(X±Y)=D(X)+D(Y)+2Cov(X,Y)当且仅当 X X X Y Y Y相互独立时, C o v ( X , Y ) = 0 Cov(X,Y)=0 Cov(X,Y)=0

协方差

(二维协方差) C o v ( X , Y ) = E ( ( X − E ( X ) ) ( Y − Y ( E ) ) ) Cov(X,Y)=E((X-E(X))(Y-Y(E))) Cov(X,Y)=E((XE(X))(YY(E)))化简后, C o v ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) Cov(X,Y)=E(XY)-E(X)E(Y) Cov(X,Y)=E(XY)E(X)E(Y)

  • property 1: C o v ( a X , b Y ) = a b C o v ( X , Y ) Cov(aX,bY)=abCov(X,Y) Cov(aX,bY)=abCov(X,Y)
  • property 2: C o v ( X 1 + X 2 , Y ) = C o v ( X 1 , Y ) + C o v ( X 2 , Y ) Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y) Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)
  • property 3:协方差受到计量纲量影响大,可使用 x − E ( x ) D ( x ) \frac{x- E(x) }{\sqrt{D(x)}} D(x) xE(x)消除。
  • 经过标准化后的协方差 C o v ( X , Y ) D ( X ) D ( Y ) \frac {Cov(X,Y)}{\sqrt{D(X)D(Y)}} D(X)D(Y) Cov(X,Y)称为相关系数 ρ \rho ρ.顾名思义,取值 [ − 1 , 1 ] [-1,1] [1,1]
  • 关于相关系数,在应用时,相关系数只表示他们的相关程度,相关意味着两变量可用直线拟合关系,不代表其斜率!和协方差一样,正负号代表其正相关和负相关。也正是因为其用直线拟合,所以,这个“相关”,其实仅仅是线性相关

信息论

  • 事件 x x x所蕴含的信息: H ( x ) = − p ( x ) l o g p ( x ) H(x)=-p(x)logp(x) H(x)=p(x)logp(x)
  • 互信息:https://baike.baidu.com/item/%E4%BA%92%E4%BF%A1%E6%81%AF/7423853,
    表示符号有点奇怪,因为他用 I ( X ; Y ) I(X;Y) I(X;Y)或者 I ( Y ; X ) I(Y;X) I(Y;X)表示,是一个带条件表示符号。至于为什么显而易见,因为是两个时间同时发生,或者相同的信息的部分,自然是要同时,但是我这个并不是条件概率,因为没有除以p(X)或者p(Y),不可以用H符号,所以就是I(xx)了。
    由其定义 I ( X ; Y ) = H ( X ) − H ( X ∣ Y ) = H ( X ) + H ( Y ) − H ( X , Y ) I(X;Y)=H(X)-H(X|Y)=H(X)+H(Y)-H(X,Y) I(X;Y)=H(X)H(XY)=H(X)+H(Y)H(X,Y),再代入第一个公式就能得到互信息的计算公式了。

一般等式

链式法则: P ( A B ) = P ( A ) P ( B ∣ A ) = P ( B ) P ( A ∣ B ) P(AB)=P(A)P(B|A)=P(B)P(A|B) P(AB)=P(A)P(BA)=P(B)P(AB)
加法法则: P ( A ) = ∑ B P ( A ∣ B ) P(A)=\sum_BP(A|B) P(A)=BP(AB)
ABC都不独立时, P ( A ∣ B ) = ∑ C P ( A ∣ C ) P ( C ∣ B ) P(A|B)=\sum_C P(A|C)P(C|B) P(AB)=CP(AC)P(CB)

  • 4
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值