人大版统计学教材第六版学习笔记--第5章 概率与概率分布

前言

只了解搜集、整理和描述统计数据的一些基本方法只能实现对统计数据粗浅的利用,与从统计数据中挖掘出规律性的东西相去甚远。

一、随机事件的几个基本概念

1.试验与事件

在同一组条件下,对某事物或现象所进行的观察或实验叫做试验,把观察或试验的结果叫做事件

例如:丢一颗骰子(正六面体,1-6点)就是一次试验,骰子落地,出现1点、或出现奇数点、点数大于3等都是一个事件。

随机/必然/不可能事件

随机事件random event:也叫偶然事件,指在同一组条件下,每次试验可能出现也可能不出现的事件。
必然事件certain event:在同一组条件下,每次试验一定出现的事件。
不可能事件impossible event:在同一组条件下,每次试验一定不出现的事件。

例如:
丢一颗骰子,落地后点数为奇数是随机事件;
落地后点数小于7是必然事件;
落地后点数大于6是不可能事件。

基本事件/简单事件

随机事件简称事件,用大写字母 A 、 B 、 C A、B、C ABC等表示。
如果一个事件不能分解成两个或更多个事件,就称这个事件为基本事件elementary event或简单事件。

例如:丢骰子试验中包含6个基本事件,分别为点数为1,点数为2,点数为3,点数为4,点数为5,点数为6.

在一次试验中,只能观察到一个且仅有一个简单事件。
一个试验中所有简单事件的全体成为样本空间或基本空间。

2.事件的概率

possibility:事件 A A A的概率 P ( A ) P(A) P(A)是描述事件 A A A在试验中出现的可能性大小的一种度量。

概率的古典定义

起源于赌博,如掷骰子、掷硬币等。

古典概型:具有(1)结果有限、(2)各个结果出现的可能性被认为是相同 两个特点的随机试验所研究的问题。
概率的古典定义:事件 A A A的概率为该事件所包含的基本事件个数 m m m与样本空间中所包含的基本事件个数 n n n的比值。

古典概率要求随机试验只有有限个可能的结果,限制了其应用。因此,人们又提出了概率的统计定义。

概率的统计定义

概率的统计定义:根据某一事件在重复试验中发生的频率来确定其概率。
在相同条件下随机试验 n n n次,某事件 A A A出现 m m m,则比值 m / n m/n m/n称为事件 A A A发生的频率。
随着 n n n的增大,该频率围绕某一常数 p p p上下波动,且波动的幅度变小,趋于稳定,稳定值即为该事件的概率。

因为概率的统计定义要求在相同的条件下进行大量重复试验(两者都很难保证),人们又提出了主观概率的概念。

主观概率定义

主观概率:决策者根据本人掌握的信息对某个事件发生可能性的判断。

根据以往经验、人为确定。不作为本书的重点。

二、概率的性质与运算法则

1.基本性质

概率的公式化定义

对任一随机事件 A A A,有 0 ≤ P ( A ) ≤ 1 0\le P(A)\le1 0P(A)1
必然事件概率 = 1 =1 =1,不可能事件概率 = 0 =0 =0
若事件 A A A与事件 B B B互斥,则 P ( A ∪ B ) = P ( A ) + P ( B ) P(A\cup B)=P(A)+P(B) P(AB)=P(A)+P(B)。可以推广至多个互斥随机事件的概率。

2.加法法则

法则1:两个互斥事件之和的概率=两个事件的概率之和。
法则2:任意两个随机事件,它们和的概率为两个事件分别的概率之和减去两事件相交的概率。

P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B ) P(A\cup B)=P(A)+P(B)-P(A\cap B) P(AB)=P(A)+P(B)P(AB)

3.条件概率与独立事件

条件概率

当某一事件 B B B已经发生时,事件 A A A发生的概率,称为事件 B B B发生条件下事件 A A A发生的条件概率conditional probability,记为 P ( A ∣ B ) P(A|B) P(AB)

由于增加了新的条件(附加信息),一般来说 P ( A ∣ B ) ≠ P ( A ) P(A|B)\neq P(A) P(AB)=P(A)

乘法公式

P ( A B ) = P ( A ) P ( B ∣ A ) = P ( B ) P ( A ∣ B ) P(AB)=P(A)P(B|A)=P(B)P(A|B) P(AB)=P(A)P(BA)=P(B)P(AB)

独立性

两个事件相互独立:不论哪一个事件发生并不影响另一个事件发生的概率。
相依事件:一个事件发生与否会影响另一个事件的发生。

对于独立性independence事件,有 P ( B ∣ A ) = P ( B ) , P ( A ∣ B ) = P ( A ) P(B|A)=P(B),P(A|B)=P(A) P(BA)=P(B)P(AB)=P(A)
此时,乘法法则可以简化为 P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B) P(AB)=P(A)P(B)

互斥事件:事件 A A A与事件 B B B不可能同时发生,即 A ∩ B A\cap B AB为不可能事件。
对立事件:若 A ∩ B A\cap B AB为不可能事件, A ∪ B A\cup B AB为必然事件,那么称事件 A A A与事件 B B B互为对立事件。
这两个比较好理解,对立必定互斥,互斥不一定对立。
互斥必定不独立,不独立不一定互斥。
不互斥可能独立,也可能不独立。
独立不可能互斥。

这段直呼好家伙,给人绕晕了

互斥:今天要么下雨,要么不下雨。
独立:不管下雨不下雨,我出门都带伞。带伞的概率不因下雨与否而改变。

三、离散型随机变量及其分布

随机变量的概念

随机事件的数量化

为了便于数学上的处理,有必要把 不采用数量标识表示 化为 采用数量标识表示。
如合格品指定为1,不合格品指定为0;硬币正面为1,反面为0。

随机变量的定义

某随机事件 A A A出现的概率定义为 P ( A ) P(A) P(A),因为随机事件都可以用一个数量标识表示,可以把 A A A换成数量标识 X X X,即 X X X具有确定概率 P ( X ) P(X) P(X)

掷硬币的情形中, X X X有两个可能值,0与1。

把每次试验中 X X X的所有可能值 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn都列举出来,而且 X X X的可能值 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn具有确定概率 P ( x 1 ) , P ( x 2 ) , . . . , P ( x n ) P(x_1),P(x_2),...,P(x_n) P(x1),P(x2),...,P(xn),其中 P ( x i ) = P ( X = x i ) P(x_i)=P(X=x_i) P(xi)=P(X=xi)称为概率函数probability function,则称 X X X P ( X ) P(X) P(X)的随机变量, P ( X ) P(X) P(X)则称为随机变量 X X X的概率函数。

微积分是研究变量的数学,那么概率论与数理统计是研究随机变量的数学。
上述概率函数与随机变量的定义说的弯弯绕绕的,直接类比 x 与 f ( x ) x与f(x) xf(x) X 与 P ( X ) X与P(X) XP(X),变量->随机变量,函数->概率函数。

两种类型的随机变量

离散型:随机变量 X X X的所有取值可逐个列举。如一批产品中次品的个数。
连续型:随机变量 X X X的所有取值无法逐个列举,而是数轴某一区间内的任一点。如灯泡的寿命,测量误差。

离散型随机变量

概率分布

离散型随机变量的概率分布probability distribution如下表所示:

X = x i X=x_i X=xi x 1 x_1 x1 x 2 x_2 x2 x n x_n xn
P ( X = x i ) = p i P(X=x_i)=p_i P(X=xi)=pi p 1 p_1 p1 p 2 p_2 p2 p n p_n pn

常见的离散型分布:0-1分布,如性别登记、产品质量合格检查、试验是否成功等。
离散型随机变量的均匀分布:掷骰子,点数1-6出现的概率相等。

知道 X X X的概率分布,就能全面了解其概率性质。
但实际问题中,很难确定一个随机变量的概率分布。
有些问题,只需要了解随机变量的某些数字特征即可。其中,期望值和方差就是最重要的两个数字特征。

期望值

离散型随机变量的期望值expected value定义为,在随机变量的一切可能值的完备组中,各可能值 x i x_i xi与其对应概率 p i p_i pi的乘积之和,记为 E ( x ) E(x) E(x)
表示随机变量本身的平均水平或集中程度。

方差与标准差

方差与标准差反映随机变量取值的离散程度。
方差定义为每个随机变量取值与期望值的离差平方之期望值,记为 D ( x ) D(x) D(x)
方差的平方根为标准差,标准差与随机变量有相同的度量单位。

离散系数

离散系数用来比较不同期望值的总体之间的离中趋势,为标准差与期望值的比值。

在财务分析中的应用

做风险控制,预期收益相同,选风险最小的(期望一致选标准差小的);风险相同,选预期收益高的;两者都不相同时,求离散系数,选离散系数小的(每单位回报率的风险更小)。

二项分布

伯努利试验:在同样的条件下重复地、相互独立地进行的一种随机试验,其特点是该随机试验只有两种可能结果:发生或者不发生。我们假设该项试验独立重复地进行了n次,那么就称这一系列重复独立的随机试验为n重伯努利试验,或称为伯努利概型。

一次试验成功的概率为 p p p,失败的概率为 q q q,用 n n n表示重复独立试验中成功的次数,则有:

P { X = x } = C n x p x q n − x , x = 0 , 1 , 2 , . . . , n P\{X=x\}=C_n^xp^xq^{n-x},x=0,1,2,...,n P{X=x}=Cnxpxqnxx=0,1,2,...,n
随机变量 X X X服从二项分布,参数为 n , p n,p n,p,记作 X ∼ B ( n , p ) X\sim B(n,p) XB(n,p)
期望 E ( x ) = n p E(x)=np E(x)=np
方差 D ( x ) = n p q D(x)=npq D(x)=npq
n = 1 n=1 n=1时,二项分布化为 P { X = x } = p x q 1 − x , x = 0 , 1 P\{X=x\}=p^xq^{1-x},x=0,1 P{X=x}=pxq1xx=0,1,就是 0 − 1 0-1 01分布。

强烈建议各位看官百度一下牛批哄哄的伯努利家族。

泊松分布

泊松分布poisson distribution是用来描述在一指定时间范围内或在指定的面积或体积之内某一事件出现的次数的分布。

典型的服从泊松分布的随机变量的例子:

  1. 在某企业中每月发生的事故的次数。
  2. 单位时间内到达某一服务柜台需要服务的顾客人数。
  3. 人寿保险公司每天收到的死亡声明的个数。
  4. 某种一起每月出现故障的次数。

泊松分布的公式为:
P ( X ) = λ x e − λ x ! , x = 0 , 1 , 2 , . . . P(X)=\frac{\lambda^xe^{-\lambda}}{x!}, x=0,1,2,... P(X)=x!λxeλ,x=0,1,2,...
其中, λ \lambda λ为给定的时间间隔内事件的平均数。
期望: E ( x ) = λ E(x)=\lambda E(x)=λ
方差: D ( x ) = λ D(x)=\lambda D(x)=λ
n n n重伯努利试验中,当成功的概率很小,实验次数很大时,二项分布可近似等于泊松分布。在实际应用中,当 p ≤ 0.25 , n > 20 , n p ≤ 5 p\le 0.25,n>20,np\le5 p0.25,n>20,np5时,用泊松分布近似二项分布效果良好。
收拾行李回家过年,溜了溜了,这一章还有三分之一回家再补,芜湖~~~

四、连续型随机变量及其分布

概率密度与分布函数

连续型随机变量可以取某一区间的任意一个值,所以不能像离散型随机变量那样,列出每一个值及相应的概率。

用数学函数 f ( x ) f(x) f(x)来表示连续型随机变量, f ( x ) f(x) f(x)应满足以下两个条件:

( 1 ) f ( x ) ≥ 0 (1)f(x)\ge0 1f(x)0 ( 2 ) ∫ − ∞ + ∞ f ( x ) d x = 1 (2)\int_{-\infty}^{+\infty}f(x)dx = 1 2+f(x)dx=1此时 f ( x ) f(x) f(x)称为概率密度函数probability density function。
P ( X = x ) P(X=x) P(X=x)在连续分布的条件下为0, P ( a < X < b ) = ∫ a b f ( x ) d x P(a<X<b)=\int_{a}^{b}f(x)dx P(a<X<b)=abf(x)dx.

连续型随机变量的概率也可以用分布函数 F ( x ) F(x) F(x)来表示,定义为:

F ( x ) = P ( X ≤ x ) = ∫ − ∞ x f ( t ) d t , − ∞ < x < + ∞ F(x)=P(X\le x)=\int_{-\infty}^xf(t)dt, -\infty<x<+\infty F(x)=P(Xx)=xf(t)dt,<x<+
此时有 P ( a < X < b ) = ∫ a b f ( x ) d x = F ( b ) − F ( a ) P(a<X<b)=\int_{a}^{b}f(x)dx=F(b)-F(a) P(a<X<b)=abf(x)dx=F(b)F(a)
期望值与方差分别为:
E ( X ) = ∫ − ∞ + ∞ x f ( x ) d x E(X)=\int_{-\infty}^{+\infty}xf(x)dx E(X)=+xf(x)dx D ( X ) = ∫ − ∞ + ∞ [ x − E ( x ) ] 2 f ( x ) d x D(X)=\int_{-\infty}^{+\infty}[x-E(x)]^2f(x)dx D(X)=+[xE(x)]2f(x)dx

正态分布

在社会经济问题中,有许多随机变量的概率分布都服从正态分布normal distribution。例如某地区同年龄组儿童的身高、体重等。

正态分布的概率密度函数为
在这里插入图片描述
参数对曲线位置、形状的影响如下图:
在这里插入图片描述
在这里插入图片描述
可以看到 μ \mu μ决定了图形的中心位置, σ \sigma σ决定了图形中曲线的陡峭程度。

μ = 0 \mu=0 μ=0 σ = 1 \sigma=1 σ=1时,相应的正态分布称为标准正态分布
任何一个一般的正态分布都可以通过线性变换转化为标准正态分布。
X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) XN(μ,σ2),则
Z = X − μ σ ∼ N ( 0 , 1 ) Z=\frac{X-\mu}{\sigma}\sim N(0,1) Z=σXμN(0,1)

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值