数据的分布形态描述

WK3 数据的分布形态描述

1、事件

  1. 必然事件:在条件S下,一定发生的事件,叫做相对条件S的必然事件,简称必然事件。必然事件发生的概率为1,但概率为1的事件不一定是必然事件。
  2. 不可能事件:在条件S下,一定不可能发生的事件,叫做相对条件S的不可能事件,简称不可能事件。不可能事件的概率为0,但概率为0的事件不一定为不可能事件。
  3. 确定事件:必然事件和不可能事件统称为相对条件S的确定事件,简称确定事件。
  4. 不确定事件:在随机试验中,可能出现也可能不出现,而在大量重复试验中具有某种规律性的事件叫做不确定事件,简称随机事件。随机事件通常用大写英文字母A、B、C等表示。

2、概率

使用一个具体数值来度量随机事件中某一个结果发生的可能性大小,这个数值就是概率。概率的取值总是在0~1之间。

  • 古典概率

    1. 定义:1)试验中所有可能出现的基本事件只有有限个;2)试验中每个基本事件出现的可能性相等;具有以上两个特点的概率模型是大量存在的。

    2. 概率公式
      P ( A ) = { 1 n , 可 能 出 现 的 结 果 有 n 个 , 且 所 有 结 果 出 现 的 可 能 性 都 相 等 m n , 事 件 A 包 含 的 结 果 有 m 个 P(A)=\begin{cases} \frac{1}{n},可能出现的结果有n个,且所有结果出现的可能性都相等\\ \frac{m}{n},事件A包含的结果有m个 \end{cases} P(A)={n1,nnmAm

  • 统计概率法

    1. 定义:结果概率需要统计过往事件发生的结果频数来确定,则称为统计概率。

    2. 概率公式
      P ( A ) = n a N , n a 表 示 出 现 某 一 结 果 的 次 数 , N 表 示 所 有 基 本 事 件 。 P(A)=\frac{n_a}{N},n_a表示出现某一结果的次数,N表示所有基本事件。 P(A)=Nna,naN

  • 主观概率法

    1. 定义:指根据市场趋势分析者的主观判断而确定的事件的可能性的大小,反映个人对某件事的信念程度,并不代表结果确定的发生概率。

3、概率分布

概率分布是指事件的不同结果对应的发生概率所构成的分布,可以利用二维坐标进行形象地解释。下面两幅图的横轴代表的都是事件所有的可能结果,纵轴则是不同结果所对应的发生概率或概率密度。

[外链图片转存失败(img-vABrjEVI-1566053031774)(C:\Users\Xin Xiao\AppData\Roaming\Typora\typora-user-images\1565965408190.png)]

  • 离散型概率分布:二项分布
  1. 定义:二项分布是由伯努利提出的概念,指的是重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。

  2. 特点:

    • 每次试验只有两种可能的结果:“成功”与“失败”,两个结果只会出现一个;
    • 每次试验前,如果“成功”的概率是p,那么"失败"的概率就是(1-p);
    • 每次试验相互独立,每次试验结果不受其他歌词试验结果的影响;
  3. 概率质量函数x~B(n,p)
    P ( X = x ) = C n x p x q n − x = n ! x ! ( n − x ) ! p x q n − x , 其 中 q = 1 − p P(X=x)=C^x_np^xq^{n-x}=\frac{n!}{x!(n-x)!}p^xq^{n-x},其中q=1-p P(X=x)=Cnxpxqnx=x!(nx)!n!pxqnx,q=1p
    n和p是二项分布的两个决定参数,一对(n,p)参数可以确定一个二项分布,因此,二项分布是一个概率分布族,随着决定参数的不同而变化。

  4. 均值和方差
    μ = ∑ i = 1 n x P ( x ) = n p σ 2 = ∑ i = 1 n ( x − μ ) 2 P ( x ) = n p q , 其 中 q = 1 − p \mu=\sum_{i=1}^{n}{xP(x)}=np\\ {\sigma}^2=\sum_{i=1}^{n}(x-\mu)^2P(x)=npq,其中q=1-p μ=i=1nxP(x)=npσ2=i=1n(xμ)2P(x)=npq,q=1p

    • x代表结果为“成功”的次数;
    • n代表伯努利试验的次数;
    • p代表“成功”结果的发生概率;
  5. 事件成功发生的比率(x/n)的均值和方差
    μ x n = n p n = p σ x n 2 = n p q n = p q , 其 中 q = 1 − p \mu_{\frac{x}{n}}=\frac{np}{n}=p\\ \sigma^2_{\frac{x}{n}}=\frac{npq}{n}=pq,其中q=1-p μnx=nnp=pσnx2=nnpq=pqq=1p
    成功比率的概率分布也服从二项分布,并且这两个二项分布的形态是完全一致的。区别在于比率二项分布的均值和方差将会改变,等于成功次数x二项分布的均值和方差与试验次数n的商。

  6. 二项概率分布图

    二项分布由参数n和p决定,所以随着参数n和p的不同,二项概率分布的形态也将随之改变。随着n和p的增大,二项分布将逐渐近似于正态分布。

    [外链图片转存失败(img-CTtksS5T-1566053031775)(C:\Users\Xin Xiao\AppData\Roaming\Typora\typora-user-images\1565968273181.png)]

  • 离散型概率分布:多项分布

    1. 性质:

      • 每次多项分布试验有N种可能的结果,但是N种结果只会出现一个;
      • 每次试验,每种结果都有各自发生的概率,所有结果的发生概率之和为100%;
      • 各次试验相互独立,每次试验结果都不受其他各次试验结果的影响;
    2. 联合概率质量函数

      假设某个多项分布试验可能发生的结果数量为k,依据历史数据,每种结果发生的统计概率分别为 p 1 p_1 p1 p 2 p_2 p2,……, p K p_K pK。现在进行 n n n次多项分布试验,假设观测到结果 a 1 a_1 a1的次数为 x 1 x_1 x1,结果 a 2 a_2 a2的次数为 x 2 x_2 x2,……,结果 a k a_k ak的次数为 x k x_k xk,那么多项分布的联合概率质量函数为:
      P ( x 1 , x 2 , . . . , x k ) = ( n x 1 . . . x k ) p 1 x 1 p 2 x 2 . . . p k x k ( n x 1 . . . x 2 ) = n ! x 1 ! x 2 ! . . . x k ! P ( x 1 , x 2 , . . . , x k ) = ( n x 1 . . . x k ) p 1 x 1 p 2 x 2 . . . p k x k = n ! x 1 ! x 2 ! . . . x k ! p 1 x 1 p 2 x 2 . . . p k x k P(x_1,x_2,...,x_k)=\binom{n}{x_1 ... x_k}p^{x_1}_1p^{x_2}_2...p^{x_k}_k\\ \binom{n}{x_1...x_2}=\frac{n!}{x_1!x_2!...x_k!}\\ P(x_1,x_2,...,x_k)=\binom{n}{x_1 ... x_k}p^{x_1}_1p^{x_2}_2...p^{x_k}_k=\frac{n!}{x_1!x_2!...x_k!}p^{x_1}_1p^{x_2}_2...p^{x_k}_k P(x1,x2,...,xk)=(x1...xkn)p1x1p2x2...pkxk(x1...x2n)=x1!x2!...xk!n!P(x1,x2,...,xk)=(x1...xkn)p1x1p2x2...pkxk=x1!x2!...xk!n!p1x1p2x2...pkxk

    3. 均值
      μ a 1 = n p 1 , μ a 2 = n p 2 , . . . , μ a k = n p k \mu_{a_1}=np_1,\mu_{a_2}=np_2,...,\mu_{a_k}=np_k μa1=np1,μa2=np2,...,μak=npk

  • 离散型概率分布:超几何分布

    1. 超几何分布试验是在有限总体中进行无放回抽样(总体数量不断减少),所以每次试验开始前,每种试验结果发生的概率将发生变化。

    2. 概率质量函数

      假设有限数据总体包含 N N N个数值(个案),其中符合要求的个案数量为 m m m个,如果从该有限数据总体中抽取 n n n个个案,其中有 k k k个是符合要求个案的概率计算公式为:
      f ( k ; n , m , N ) = C m k C N − m n − k C N n C N n 表 示 从 包 含 N 个 个 案 的 有 限 总 体 中 抽 取 n 个 个 案 的 方 法 数 目 ; C m k 表 示 从 m 个 符 合 要 求 的 个 案 中 抽 取 出 其 中 k 个 的 方 法 数 目 ; C N − m n − k 表 示 从 剩 余 的 N − m 个 个 案 中 抽 取 n − k 个 个 案 的 方 法 数 目 ; f(k;n,m,N)=\frac{C^k_mC^{n-k}_{N-m}}{C^n_N}\\ C^n_N表示从包含N个个案的有限总体中抽取n个个案的方法数目;\\ C^k_m表示从m个符合要求的个案中抽取出其中k个的方法数目;\\ C^{n-k}_{N-m}表示从剩余的N-m个个案中抽取n-k个个案的方法数目; f(k;n,m,N)=CNnCmkCNmnkCNnNnCmkmkCNmnkNmnk

  • 离散型概率分布:泊松分布

    1. 泊松分布考虑的是在连续时间或空间单位上发生随机事件次数的概率。基于过去某个随机事件在某段事件或某个空间内发生的平均次数,预测该随机事件在未来同样长的事件或同样大的空间内发生 n n n次的概率。

    2. 概率质量函数
      P ( X = k ) = C n k ( λ n ) k ( 1 − λ n ) n − k = e − λ λ k k ! P(X=k)=C^k_n(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}=\frac{e^{-\lambda}\lambda^k}{k!} P(X=k)=Cnk(nλ)k(1nλ)nk=k!eλλk

    3. 均值和方差
      μ p o i s s o n = n p = n λ n = λ σ p o i s s o n 2 = n p q = n λ n ( 1 − λ n ) = λ \mu_{poisson}=np=n\frac{\lambda}{n}=\lambda\\ \sigma^2_{poisson}=npq=n\frac{\lambda}{n}(1-\frac{\lambda}{n})=\lambda μpoisson=np=nnλ=λσpoisson2=npq=nnλ(1nλ)=λ

  • 连续性概率分布:指数分布

    1. 指数分布描述的是两次随机事件发生的时间间隔的概率分布情况,时间间隔指的是一次随机事件发生到下一次随机事件再发生的时间间隔。

    2. 概率密度函数
      f ( x ) = { 0 x &lt; 0 1 μ e − 1 μ x x ≥ 0 x 表 示 给 定 的 时 间 长 度 ; μ 表 示 随 机 事 件 发 生 一 次 的 平 均 等 待 时 间 ; λ 是 μ 的 倒 数 , 表 示 为 单 位 时 间 内 随 机 事 件 发 生 的 次 数 ; f(x)=\begin{cases} 0 &amp; x&lt;0\\ \frac{1}{\mu}e^{-\frac{1}{\mu}x} &amp; x\geq0 \end{cases}\\ x表示给定的时间长度;\\ \mu表示随机事件发生一次的平均等待时间;\\ \lambda是\mu的倒数,表示为单位时间内随机事件发生的次数; f(x)={0μ1eμ1xx<0x0xμλμ

    3. 概率计算公式
      { P ( X ≥ x ) = e − λ x P ( X &lt; x ) = 1 − e − λ x x 是 给 定 的 时 间 长 度 ; λ 为 单 位 时 间 内 随 机 事 件 发 生 的 次 数 ; \begin{cases} P(X\geq x)=e^{-\lambda x}\\ P(X&lt;x)=1-e^{-\lambda x} \end{cases}\\ x是给定的时间长度;\\ \lambda为单位时间内随机事件发生的次数; {P(Xx)=eλxP(X<x)=1eλxxλ

  • 连续性概率分布:均匀分布

    1. 均匀概率分布是古典概率分布的连续形式,是指随机事件的可能结果是连续型数据变量,所有的连续型数据结果所对应的概率相等。

    2. 概率密度函数
      f ( x ) = { 1 b − a a &lt; x &lt; b 0 x &lt; a , x &gt; b f(x)=\begin{cases} \frac{1}{b-a} &amp; a&lt;x&lt;b\\ 0 &amp;x&lt;a,x&gt;b \end{cases} f(x)={ba10a<x<bx<a,x>b

    3. 概率公式
      P ( c ≤ x ≤ c + l ) = l b − a ; ( a ≤ c &lt; c + l ≤ b ) P(c\leq x \leq c+l)=\frac{l}{b-a};(a\leq c&lt;c+l \leq b) P(cxc+l)=bal;(ac<c+lb)

  • 连续性概率分布:正态分布

    1. 正态概率分布是所有概率分布中最重要的形式。

    2. 概率密度函数(均值和方差构成)
      f ( x ) = 1 σ 2 π e − ( x − μ ) 2 2 σ 2 μ 表 示 均 值 ; σ 表 示 标 准 差 ; f(x)=\frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma ^2}}\\ \mu表示均值;\\ \sigma表示标准差; f(x)=σ2π 1e2σ2(xμ)2μσ

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值