统计学笔记(四)概率与概率分布

本文概述了随机事件的基本概念,包括试验、事件、概率的定义,重点介绍了离散型随机变量(如二项分布和泊松分布)和连续型随机变量(如正态分布)的概率分布及其特性。
摘要由CSDN通过智能技术生成

1、随机事件及其概率

1.1 随机事件的几个基本概念

  1. 试验和事件:在同一组条件下,对某事件或现象进行观察或实验叫作『试验』,把观察或试验的结果叫作『事件』。
  2. 随机事件:在同一组条件下,每次试验可能出现也可能不出现的事件。随机事件是概率论研究的范畴。
  3. 必然事件
  4. 不可能事件
  5. 基本事件/简单事件:如果一个事件不能分解成两个或多个事件,则称这个事件未基本事件;
  6. 样本空间:一个试验中所有基本事件的全体称为样本空间或基本空间。

1.2 事件的概率

事件A的概率是对事件A在试验中出现的可能性大小的一种度量。概率的「统计定义如下」:

在『相同条件下』随机试验n次,某事件A出现m次(m<=n),则比值m/n称为事件发生的「频率」。随着n的增大,该频率围绕某一常数p上下波动,且波动的幅度逐渐减小,趋于稳定,这个『频率的稳定值』即为该事件的概率,记为:

P ( A ) = m n = p P(A) = \frac{m}{n}=p P(A)=nm=p

2、离散型随机变量及其分布

2.1 基本概念

  1. P ( x ) P(x) P(x) x x x称为 P ( x ) P(x) P(x)随机变量 P ( x ) P(x) P(x)称为 x x x概率函数
  2. 随机变量分为『离散型随机变量』和『连续型随机变量』;
  3. 期望值和加权平均数的区别加权平均数具体数据的平均指标,而期望值一般指随机变量 x x x的期望指标;
  4. 离散系数 = 标准差 / 期望,可以用来比较不同期望值的总体之间的离中趋势。

2.2 分布

2.2.1 二项分布

  • 又叫 n n n次重复独立试验 、 n n n重贝努里试验
  • 包含 n n n个相同的试验;
  • 每次试验只有两种可能的结果
  • 出现“成功”的概率 p p p是相同的,出现“失败”的概率 q q q也是如此, p + q = 1 p+q=1 p+q=1
  • 试验是互相独立的;
  • 试验“成功”或“失败”可以计数,即试验结果对应于一个离散型随机变量;

如果随机变量 x x x服从参数为 n n n p p p的二项分布,我们记为: X ~ B ( n , p ) X ~B(n,p) XB(n,p)

n次试验中正好得到k次成功的概率由概率质量函数给出:

P ( X = x ) = C n x p x q n − x , x = 0 , 1 , 2 , . . . , n P(X = x) = C_n^xp^xq^{n-x}, x = 0, 1, 2, ..., n P(X=x)=Cnxpxqnx,x=0,1,2,...,n
n = 1 n=1 n=1时得到0-1分布
P ( X = x ) = p x q 1 − x , x = 0 , 1 P(X = x) = p^xq^{1-x}, x = 0, 1 P(X=x)=pxq1x,x=0,1

如果 X X X是服从二项分布的随机变量,那么 X X X的期望值为:
E ( x ) = n p E(x) = np E(x)=np
X X X的方差为:
D ( x ) = n p ( 1 − p ) D(x) = np(1-p) D(x)=np(1p)

二项分布的概率质量函数图像为:
在这里插入图片描述

二项分布的累积分布函数为:
在这里插入图片描述

2.2.2 泊松分布

  • 定义:泊松分布是用来描述指定时间范围内或在指定面积或体积内,某一事件出现次数的分布
  • 例如:某企业每月发生事故的次数、单位时间内到达服务柜台需要服务的顾客人数;
  • 在n重贝努里试验中,当成功的概率很小(即p→0),试验次数很大时,二项分布近似等于泊松分布
  • 在实际应用中,当p<=0.25, n>20, np<=5时,用泊松分布近似二项分布的效果良好。

如果随机变量 x x x服从参数为 λ \lambda λ的二项分布,我们记为: X ~ P o s s i o n ( n , p ) X ~Possion(n,p) XPossion(n,p) X ~ π ( n , p ) X ~\pi(n,p) Xπ(n,p)

泊松分布的概率质量函数为:
P ( X ) = λ x e − λ x ! P(X) = \frac{\lambda^xe^{-\lambda}}{x!} P(X)=x!λxeλ
如果 X X X是服从泊松分布的随机变量,那么 X X X的期望值为:
E ( x ) = λ E(x) = \lambda E(x)=λ
X X X的方差为:
D ( x ) = λ D(x) =\lambda D(x)=λ

泊松分布的概率质量函数为:
在这里插入图片描述
泊松分布的累积分布函数为:
在这里插入图片描述

3、连续型随机变量的概率分布

3.1 基本概念

由于连续型随机变量可以取某区间上的任意一个值,所以我们不能跟对离散型随机变量一样列出每个值及其相应的概率,而是通常用数学函数和分布函数的形式来描述。

当用 f ( x ) f(x) f(x)来描述连续型随机变量时,我们称 f ( x ) f(x) f(x)为『概率密度函数』(PDF: probability density function)(对应的离散型概率分布称为概率质量分布,PMF:probability mass function)。

概率密度函数应该满足以下两个条件:
(1) f ( x ) ≥ 0 f(x) \ge 0 f(x)0
(2) ∫ − ∞ ∞ f ( x ) d x = 1 \int_{-\infty}^{\infty}f(x)dx = 1 f(x)dx=1

需要指出的是, f ( x ) f(x) f(x)并不是一个概率,即 f ( X ) ! = P ( X = x ) f(X) != P(X=x) f(X)!=PX=x f ( x ) f(x) f(x)称为概率密度函数,而 P ( X = x ) P(X=x) P(X=x)在连续分布的条件下为0。在连续分布的情况下,以曲线下面的面积表示概率:

连续型随机变量的概率也可以用「分布函数」 F ( x ) F(x) F(x)来表示,显然,分布函数是建立在密度函数f(x)之上的,连续型随机变量的概率密度是其分布函数的导数

3.2 正态分布

– 正态分布的定义及图形特点:「对称钟形
– 均值决定了图形的中心位置,方差决定了图形曲线的陡峭程度;方差越小曲线越陡峭,方差越大曲线越平缓。
–标准正态分布:标准正态分布的重要性在于,任何一个一般的正态分布都可以通过线性变换转化为标准正态分布

如果**随机变量 x x x服从平均数为 μ \mu μ、标准差为 σ \sigma σ的常态分布,我们记为: X ~ N ( μ , σ 2 ) X ~N(\mu,\sigma^2) XN(μ,σ2)

泊松分布的概率质量函数为:
P ( X ) = λ x e − λ x ! P(X) = \frac{\lambda^xe^{-\lambda}}{x!} P(X)=x!λxeλ
正态分布的概率密度函数为:
在这里插入图片描述
正态分布的累积分布函数为:
在这里插入图片描述

参考资料

[1] 贾俊平. (2018). 统计学 (第7版). 中国人民大学出版社。
[2] 对泊松分布的通俗理解
[3] 维基百科二项分布
[4] 维基百科泊松分布
[5] 维基百科正态分布

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值