Normal Distribution(正态分布)

参考链接: https://zhuanlan.zhihu.com/p/128809461
读作x服从正态分布
在这里插入图片描述
μ:均值/期望,指x的平均值
σ^2:方差,x的取值与μ的平方的和的平均数。
在这里插入图片描述

均值和方差(正态分布记住这部分就行)

1)概率密度曲线在均值处达到最大,并且对称;
2)一旦均值和方差确定,正态分布曲线也就确定;
3)当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交;
4)正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1 ;
5)均值可取实数轴上的任意数值,决定正态曲线的具体位置;方差决定曲线的“陡峭”或“扁平”程度:方差越小,正态曲线越陡峭,方差越大,正态曲线越扁平。

这是因为,方差越小,意味着大多数变量值离均值的距离越近,因此大多数值都紧密地聚集在均数周围,图形所能覆盖的变量值就少些(比如1±0.1涵盖[0.9,1.1]),于是都挤在一块,图形上呈现瘦高型。相反,方差越大,数据跨度就比较大,分散程度大,所覆盖的变量值就越多(比如1±0.5涵盖[0.5,1.5]),图形呈现“矮胖型”。我们可以对照下图直观地看一下,图中黄色曲线为A,蓝色曲线为B,紫红色曲线为C。如图,我们可以看到均值的大小决定了曲线的位置,方差的大小决定了曲线的胖瘦。A和B的均值一样,但方差不同,所以形状不同,图形越扁平,方差越大。确实如此,图中B的标准差是1/2,小于A的标准差1(标准差为方差开根号)。
在这里插入图片描述

标准化与查表求概率

接下来,我们通过一个例子来看如何通过查表法计算正态分布变量在某个区间的概率。首先,我们看这个问题,说小明每天上学的通勤时间是一个随机变量X,这个变量服从正态分布。统计他过去20天的通勤时间(单位:分钟):26、33、65、28、34、55、25、44、50、36、26、37、43、62、35、38、45、32、28、34。现在我们想知道他上学花30~45分钟的概率。

首先,我们将问题转化为数学表达式,要算他上学花30~45分钟的概率,就是求P(30 < X < 45)。之前我们一直强调,一个变量服从正态分布,就要立马考虑到它的均数和标准差是多少。这里我们简化一下用他过去20天的样本数据来代替。所以,我们首先计算这20天通勤时间的样本均数及标准差,分别为38.8(分钟)和11.4(分钟)。

然后,我们进行标准化,这一步很重要,也称z变换。通过标准化,所有服从一般正态分布的随机变量都变成了服从均数为0,标准差为1的标准正态分布。对于服从标准正态分布的随机变量,专门用z表示。因此,求P(30 < X < 45),就转换成了求P(-0.77 < Z < 0.54),
在这里插入图片描述
标准化的具体计算为:
30 → (30-38.8)/ 11.4 = - 0.77
45 → (45-38.8)/ 11.4 = 0.54
X → Z
P(30 ≤ X ≤ 45)= P(-0.77 ≤ Z ≤ 0.54)
这里简单提醒一下,经过标准化后,原来的曲线的形状不会变化,即不会改变胖瘦,只是位置发生平移,比如下图中的例子,经过标准化实际上只是均数从38.8移到了0。完成z变换,我们就通过可以利用z值表找到对应的概率值。
在这里插入图片描述
再三强调,图中阴影部分的面积代表的是Z ≤ z的概率(重要的话讲三遍,注意是“≤”)。另外,还有两个根据定义成立的两个公式:一是P(Z ≥ z)= 1- P(Z ≤ z);二是P(Z≤-z)= 1-P(Z ≤ z)大家也需要了解。下面我们正式看看怎么查表,前面我们已经把问题转化成求P (-0.77 ≤ Z ≤0.54) = P (Z ≤ 0.54)–P (Z ≤ -0.77),于是,我们需要找当Z≤0.54和Z≤-0.77的概率值然后相减即可。
在这里插入图片描述
在这里插入图片描述

Normal Distribution(正态分布)

因为它太常见了,基本上能描述所有常见的事物和现象:正常人群的身高、体重、考试成绩、家庭收入等等。这里的描述是什么意思呢?就是说这些指标背后的数据都会呈现一种中间密集、两边稀疏的特征。以身高为例,服从正态分布意味着大部分人的身高都会在人群的平均身高上下波动,特别矮和特别高的都比较少见,而 Normal有常态、正常的、标准的等意思。
为什么常见?
因为我们研究的对象具有同质性(比如都是成年的中国男子),所以其特征往往是趋同的,即存在一个基准;但由于个体变异的存在(当然变异不会太大),这些特征又不是完全一致,所以会以一定的幅度在基准的上下波动,从而形成了中间密集,两侧稀疏的特征,即Normal Distribution。

连续型随机变量研究区间概率

随机变量的取值可以为连续区间[1-2]和离散型区间[1,2],连续性随机变量可以取1-2的任何值如1.5869548,离散型只能取1,2这两个值。
假定随机变量X指是“北京市成年男子的身高”,理论上它可以取任意正数,所以我们把它当做一个连续型随机变量来看待。这里,我们先想一想如何计算P(X =1.87)? 即身高恰好完全exactly等于1.87的概率是多少,这就是所谓的“点概率”。更极端一点,让随机变量Y是[1,2]这个区间上的任意一点,那么Y的取值有多少个呢?无数多个,我们数不清楚,所以Y 取某一个具体的值的概率是1除以无数,即可以看做是0。于是,这里透露一个很重要的结论:连续型随机变量取任意某个确定的值的概率均为0。因此,对于连续型随机变量,我们通常不研究它取某个特定值的概率,而研究它在某一段区间上的取值,比如身高在1.70~1.80的概率。

概率密度函数与概率分布函数

连续性随机变量讲概率密度函数,用于反映取值区间与概率的关系。因为对于连续性随机变量来说取某点的概率永远是0,所以 p(x)=0,这个函数没有意义。因此设计概率密度函数,面积代表取区间的概率。
离散型随机变量讲概率分布函数p(x)=i,用于反映取值点与概率的关系。
在这里插入图片描述
我们特别熟知的那条中间高、两边低的“钟形曲线”就是正态分布的概率密度曲线。前面我们讲了区间概率,这里你就可以通过区间的角度来理解概率密度曲线:曲线越高,也就代表着这个区别的概率越密集,简单理解成在同样大小的房子里,这个房间的人数更多、更挤。除此之外,另一个关于概率密度函数的重要知识点是,积分(面积)等于概率。随机变量X在某个区间比如(a,b)即a<X<b的概率,就是概率密度曲线在这个区间下的面积,数学上的表达就是密度函数在区间(a, b)上的积分。所以,概率的大小就是“概率密度函数曲线下的面积”的大小。
下图中的三条曲线f (x),就是概率密度函数,各种形式的概率就是相对应的曲线下面积。
在这里插入图片描述

  • 2
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值