Vamei博客学习笔记(3)

本次笔记取材于:

  1. 概率论05 离散分布
  2. 概率论06 连续分布
  3. 概率论07 联合分布
  • 离散随机变量的概率分布

    随机变量(random variable)的本质是一个函数,是从样本空间的子集到实数的映射,将事件转换成一个数值。我们通常用一个大写字母来表示一个随机变量,比如X。

    随机变量的取值,每个值都对应有发生的概率,构成该离散随机变量的概率分布

    离散随机变量的概率分布有很多种类,常见如下:

  • 伯努利分布(Bernoulli Distribution)

    随机变量只有两个可能取值0或1。表示为:
    P ( X = k ) = { p                      f o r    k = 1 1 − p          f o r    k = 0 P(X=k)=\begin{cases} p \;\;\;\;\;\;\;\;\;\; for \;k=1\\1-p \; \;\;\;for\;k=0 \end {cases} P(X=k)={pfork=11pfork=0
    现实示例:抛硬币,出现正面,记录为1。

  • 二项分布(Binomial Distribution)

    进行n次独立测试,每次测试成功的概率为p(相应的,失败的概率为1-p)。这n次测试中的“成功次数”是一个随机变量。这个随机变量符合二项分布(binomial distribution)。

    次数,可以用分步计数的角度考虑。

    n次测试,如果随机变量为k,意味着其中的k次成功,n-k次失败。相当于分组问题,要把n个总数分成k和n-k两组,共有 ( n k ) \begin{pmatrix} n\\k \end{pmatrix} (nk)种可能(一个具体的数)。其中每种可能出现的概率为 p k ( 1 − p ) n − k p^k(1-p)^{n-k} pk(1p)nk(每一种可能的概率都一样)。

    二项式分步可以表示为:
    P ( X = k ) = ( n k ) p k ( 1 − p ) n − k P(X=k)=\begin{pmatrix} n\\k \end{pmatrix}p^k(1-p)^{n-k} P(X=k)=(nk)pk(1p)nk
    现实示例:连续打靶,中靶次数。

  • 泊松分布(Poisson Distribution)

    二项分布的一种极限情况,当 p → 0 p→0 p0 n → + ∞ n→+∞ n+,而 n p = λ np=λ np=λ时,二项分布趋近于泊松分布。

    这意味着我们进行无限多次测试,每次成功概率无穷小,但 n n n p p p的乘积是一个有限的数值。

    泊松分布用于模拟低概率事件。泊松分布的关键特征是,随机变量的取值与区间的长短成正比。这里的区间是广义的,它既可以表示时间,也可以表示空间。
    P ( X = k ) = λ k k ! e − λ k = 0 , 1 , . . . n P(X=k)=\frac{\lambda ^k}{k!}e^{-\lambda}\\k=0,1,...n P(X=k)=k!λkeλk=0,1,...n

    现实示例:地震次数,比如十年内某地发生地震的总数。

    可以将十年划分为 n n n个小时间段,每个时间段内地震发生的概率为 p p p。我们假设小时间段很短,以致于不可能有两次地震发生在同一小时间段内,那么地震的总数是一个随机变量,趋近于泊松分布

  • 几何分布(Geometric Distribution)

    连续进行独立测试,直到测试成功。每次测试成功的概率为p。那么,到我们成功时,所进行的测试总数是一个随机变量,可以取值1到正无穷。
    P ( X = k ) = ( 1 − p ) ( k − 1 ) p k = 1 , 2... P(X=k)=(1-p)^{(k-1)}p \\k=1,2... P(X=k)=(1p)(k1)pk=1,2...
    现实示例:产品检验。

    比如产品的合格率为0.65。我们需要检验k次才发现第一个合格产品

  • 负二项分布(Negative geometric diatribution)

    几何分布实际上是负二项分布(negative geometric distribution)的一种特殊情况。

    负二项分布是进行独立测试,但直到出现 r r r次成功,测试的总数 k k k r = 1 r=1 r=1时,负二项分布实际上就是几何分布。

    在连续的r次测试时,我们只需要保证最后一次测试是成功的,而之前的k-1次中,有r-1次成功:
    P ( X = k ) = ( k − 1 r − 1 ) p r ( 1 − p ) k − r P(X=k)=\begin{pmatrix} k-1\\r-1 \end{pmatrix}p^r(1-p)^{k-r} PX=k=(k1r1)pr(1p)kr
    现实示例:产品检验,产品的合格率为 p p p。我们需要检验 k k k次才共发现r个合格产品。

  • 符合超几何分布(hypergeometric distribution)

    一个袋子中有n个球,其中r个是黑球,n-r是白球,从袋中取出m个球,让X表示取出球中的黑球的个数,那么X是一个符合超几何分布(hypergeometric distribution)的随机变量。

  • 常见分布对比表

分布可能取值数学描述现实案例Python实现函数
伯努利分布(Bernoulli Distribution)0;1 P ( X = k ) = { p                      f o r    k = 1 1 − p          f o r    k = 0 P(X=k)=\begin{cases} p \;\;\;\;\;\;\;\;\;\; for \;k=1\\1-p \; \;\;\;for\;k=0 \end {cases} P(X=k)={pfork=11pfork=0抛硬币,出现正面,记录为1;反面记录为0scipy.stats.bernoulli()
二项分布(Binomial Distribution)0;1;2;…n(总数) P ( X = k ) = ( n k ) p k ( 1 − p ) n − k P(X=k)=\begin{pmatrix} n\\k \end{pmatrix}p^k(1-p)^{n-k} P(X=k)=(nk)pk(1p)nk连续打靶,中靶次数。scipy.stats.binom()
泊松分布(Poisson Distribution)0;1;2…;n P ( X = k ) = λ k k ! e − λ k = 0 , 1 , . . . n P(X=k)=\frac{\lambda ^k}{k!}e^{-\lambda}\\k=0,1,...n P(X=k)=k!λkeλk=0,1,...n地震的总数scipy.stats.poisson()
几何分布(Geometric Distribution)1;2;… P ( X = k ) = ( 1 − p ) ( k − 1 ) p k = 1 , 2... P(X=k)=(1-p)^{(k-1)}p \\k=1,2... P(X=k)=(1p)(k1)pk=1,2...产品检验scipy.stats.geom()
负二项分布(Negative geometric diatribution)1;2;… P ( X = k ) = ( k − 1 r − 1 ) p r ( 1 − p ) k − r P(X=k)=\begin{pmatrix} k-1\\r-1 \end{pmatrix}p^r(1-p)^{k-r} PX=k=(k1r1)pr(1p)kr产品检验scipy.stats.ngeom()
符合超几何分布(hypergeometric distribution)
  • 连续随机变量

    为了表示连续随机变量的概率分布,我们可以使用累积分布函数或者密度函数。密度函数是对累积分布函数的微分.

    密度函数在某个区间的积分,是随机变量在该区间取值的概率。这意味着,在密度函数的绘图中,概率是曲线下的面积。

  • 均匀分布(uniform distribution)

    假设我们有一个随机数生成器,产生一个从0到1的实数,每个实数出现的概率相等。这样的一个分布被称为均匀分布(uniform distribution).

    它的累积分布函数是:
    F ( x ) = { 0 , &ThickSpace;&ThickSpace;&ThickSpace; x &lt; 0 x , &ThickSpace;&ThickSpace;&ThickSpace; 0 ≤ x ≤ 1 1 , &ThickSpace;&ThickSpace;&ThickSpace; x &gt; 1 F(x)=\begin {cases} 0,\;\;\; x&lt;0\\x,\;\;\;0\leq x\leq1 \\ 1,\;\;\;x&gt;1 \end {cases} F(x)=0,x<0x,0x11,x>1
    均匀分布的密度函数可以写成:
    f ( x ) = { 1 , &ThickSpace;&ThickSpace;&ThickSpace; 0 ≤ x ≤ 1 0 , &ThickSpace;&ThickSpace;&ThickSpace; x &lt; 0 &ThickSpace;&ThickSpace; o r &ThickSpace;&ThickSpace; x &gt; 1 f(x)=\begin{cases} 1,\;\;\;0\leq x \leq 1\\0,\;\;\; x&lt;0\;\;or\;\; x&gt;1 \end{cases} f(x)={1,0x10,x<0orx>1

  • 指数分布(exponential distribution)

    指数分布(exponential distribution)的密度函数随着取值的变大而指数减小。

    指数分布的密度函数为:
    f ( x ) = { λ e − λ x &ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace; i f &ThickSpace;&ThickSpace;&ThickSpace; x ≥ 0 0 &ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace; i f &ThickSpace;&ThickSpace;&ThickSpace; x &lt; 0 f(x)=\begin{cases}λe^{−λx} \;\;\;\;\;\;\; if \;\;\;x \geq 0\\0 \;\;\;\; \; \; \; \; \; \; \; \; \; \; if \;\;\; x&lt;0 \end{cases} f(x)={λeλxifx00ifx<0

    累积分布函数为:
    F ( x ) = 1 − e − λ x , x ≥ 0 F(x)=1−e^{−λx},x≥0 F(x)=1eλx,x0
    现实案例:洪水等级的分布

  • 正态分布(normal distribution)

    正态分布又被称为高斯分布(Gauss distribution),因为高斯在1809年使用该分布来预测星体位置。

    第一个提出该分布的是法国人De Moivre。作为统计先驱,这位数学家需要在咖啡馆“坐台”,为赌徒计算概率为生。正态分布的发现来自于对误差的估计。

    正态分布的密度函数如下:
    f ( x ) = 1 2 π σ e − 1 ( x − μ ) 2 / 2 σ 2 , − ∞ &lt; x &lt; ∞ f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-1(x-\mu)^2/2\sigma ^2},-\infty &lt; x&lt;\infty f(x)=2π σ1e1(xμ)2/2σ2,<x<
    正态分布表示成 N ( μ , σ ) N(μ,σ) N(μ,σ)。当 μ = 0 , σ = 1 μ=0,σ=1 μ=0,σ=1,这样的正态分布被称作标准正态分布(standard normal distribution)。

  • Gamma分布

    Gamma分布在统计推断中具有重要地位。它的密度函数如下:
    g ( t ) = λ α Γ ( α ) t α − 1 e − λ t &ThickSpace;&ThickSpace; , &ThickSpace; t ≥ 0 g(t)=\frac{\lambda^{\alpha}}{\Gamma(\alpha)}t^{\alpha -1}e^{-\lambda t}\;\;,\;t \geq0 g(t)=Γ(α)λαtα1eλt,t0
    其中的Gamma函数可以表示为:
    Γ ( x ) = ∫ 0 ∞ μ x − 1 e − u d u &ThickSpace;&ThickSpace;&ThickSpace; , &ThickSpace;&ThickSpace; x &gt; 0 \Gamma(x)=\int^{\infty}_0 \mu^{x-1}e^{-u}du \;\;\; ,\;\;x&gt;0 Γ(x)=0μx1eudu,x>0

  • 常见连续分布对比表

分布可能取值概率密度函数现实案例Python实现函数
均匀分布(uniform distribution)无限 f ( x ) = { 1 , &ThickSpace;&ThickSpace;&ThickSpace; 0 ≤ x ≤ 1 0 , &ThickSpace;&ThickSpace;&ThickSpace; x &lt; 0 &ThickSpace;&ThickSpace; o r &ThickSpace;&ThickSpace; x &gt; 1 f(x)=\begin{cases} 1,\;\;\;0\leq x \leq 1\\0,\;\;\; x&lt;0\;\;or\;\; x&gt;1 \end{cases} f(x)={1,0x10,x<0orx>1
指数分布(exponential distribution)无限 f ( x ) = { λ e − λ x &ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace; i f &ThickSpace;&ThickSpace;&ThickSpace; x ≥ 0 0 &ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace;&ThickSpace; i f &ThickSpace;&ThickSpace;&ThickSpace; x &lt; 0 f(x)=\begin{cases}λe^{−λx} \;\;\;\;\;\;\; if \;\;\;x \geq 0\\0 \;\;\;\; \; \; \; \; \; \; \; \; \; \; if \;\;\; x&lt;0 \end{cases} f(x)={λeλxifx00ifx<0洪水等级scipy.stats.expon()
正态分布(normal distribution)无限 f ( x ) = 1 2 π σ e − 1 ( x − μ ) 2 / 2 σ 2 , − ∞ &lt; x &lt; ∞ f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-1(x-\mu)^2/2\sigma ^2},-\infty &lt; x&lt;\infty f(x)=2π σ1e1(xμ)2/2σ2,<x<scipy.stats.norm()
Gamma分布无限 g ( t ) = λ α Γ ( α ) t α − 1 e − λ t &ThickSpace;&ThickSpace; , &ThickSpace; t ≥ 0 g(t)=\frac{\lambda^{\alpha}}{\Gamma(\alpha)}t^{\alpha -1}e^{-\lambda t}\;\;,\;t \geq0 g(t)=Γ(α)λαtα1eλt,t0scipy.stats.gamma()
  • 联合分布(joint distribution)

    联合分布(joint distribution)描述了多个随机变量的概率分布,是对单一随机变量的自然拓展。

    联合分布的多个随机变量都定义在同一个样本空间中。

    对于联合分布来说,最核心的依然是概率测度这一概念。

  • 离散随机变量的联合分布

    一个随机变量是从样本空间到实数的映射。所谓的映射是人为创造的。可以有多个。

    随机变量可以看作个有多个分量矢量

    所以定义在同一样本空间多随机变量,是一个从样本空间矢量映射

    (从这个角度上说,单一随机变量是一个从样本空间到一个有一个分量的矢量的映射)

    是不是可以把随机变量看作是从样本空间提取的一个特征。

    假设:样本空间 Ω Ω Ω中每个结果等概率出现。而样本空间中共有8个结果,那么个每个结果的出现的概率都是1/8。

    据此,我们可以计算联合概率。依据每个随机变量对应的结果数量。

    对于 X = x , Y = y X=x,Y=y X=x,Y=y,我们寻找样本空间中满足这两个取值的所有元素。这些元素构成一个样本空间的子集,该子集的概率就是 P ( X = x , Y = y ) P(X=x,Y=y) P(X=x,Y=y)联合概率

    p ( x , y ) = P ( X = x , Y = y ) p(x,y)=P(X=x,Y=y) p(x,y)=P(X=x,Y=y)称为联合概率质量函数(joint PMF, joint probability mass function)。

    联合概率可以看做两个事件同时发生时的概率,事件A为 X = x X=x X=x,事件B为 Y = y Y=y Y=y,即 P ( A ∩ B ) P(A∩B) P(AB)

  • 连续随机变量的联合分布

    单个连续随机变量的概率是变量在某个区间(某段线的“长度”)取值的概率。

    多个连续随机变量的概率,是这多个随机变量在多维区间的概率。

    在单变量情况下,概率是一个“面积”,是由区间的“长度”和密度函数(一条曲线)围成的。这里的“体积”是二维区间的“面积”和密度函数(一个曲面)围成的。我们可以使用联合概率密度函数(joint PDF, joint probability density function)来表达多随机变量的分布。

  • 边缘概率(marginal distribution)

    联合分布包含了多个随机变量的分布信息。从联合分布中,提取出任意一个单一随机变量的分布,也就是所谓的边缘分布(marginal distribution)。

    1. 离散随机变量,边缘概率质量函数(marginal pmf):
      p X ( x ) = ∑ a l l &ThickSpace; y p ( x &ThickSpace; , &ThickSpace; y ) p Y ( y ) = ∑ a l l &ThickSpace; , &ThickSpace; x p ( x &ThickSpace; , &ThickSpace; y ) p_X(x)=\sum_{all \; y}p(x\; , \;y)\\p_Y(y)=\sum_{all \; , \; x}p(x\; , \; y) pX(x)=allyp(x,y)pY(y)=all,xp(x,y)

    2. 连续随机变量,边缘密度函数(marginal pdf, marginal probability density function)可以定义为:
      f X ( x ) = ∫ − ∞ + ∞ f ( x , y ) d y f_X(x)=\int^{+ \infty}_{- \infty}f(x,y)dy fX(x)=+f(x,y)dy

  • 条件分布

    事件的条件概率类似,假设 p Y ( y ) ≠ 0 pY(y)≠0 pY(y)̸=0,在 Y = y Y=y Y=y的条件下,随机变量X取值为x的概率定义为:

    1. 离散随机变量

    p ( x ∣ y ) = p ( x , y ) p Y ( y ) p(x|y)=\frac{p(x,y)}{p_Y(y)} p(xy)=pY(y)p(x,y)

    1. 连续随机变量
      f ( x ∣ y ) = f ( x ∣ Y = y ) = f ( x , y ) f Y ( y ) f(x|y)=f(x|Y=y)=\frac{f(x,y)}{f_Y(y)} f(xy)=f(xY=y)=fY(y)f(x,y)
  • 独立随机变量

    正如事件之间可以相互独立一样,随机变量之间也可以相互独立。当X独立于Y时,我们可以相像,Y的取值,将不影响X的概率。也就是说
    p ( x ∣ y ) = p X ( x ) p(x|y)=p_X(x) p(xy)=pX(x)
    这意味着,当且仅当

    1. 离散随机变量

    p ( x , y ) = p X ( x ) p Y ( y ) p(x,y)=p_X(x)p_Y(y) p(x,y)=pX(x)pY(y)

    相互独立,意味着每个随机变量对应的可能结果彼此不相同。

    1. 连续随机变量
      f ( x , y ) = f X ( x ) f Y ( y ) f(x,y)=f_X(x)f_Y(y) f(x,y)=fX(x)fY(y)

    时,X和Y相互独立。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值