统计学2

随机变量
我们熟悉的变量是比如y=2x+3,x y是变量,该变量可以变化,可以取特定值,可以求出值。而随机变量虽然也可以取很多值,但这些变量无法求解。随机变量用大写字母X Y Z表示,这和可以求解的传统变量分开。随机变量其实是一种函数,将随机过程映射到实际数字。假设想量化一个随机过程,比如明天是否下雨。我们则可以定义一个随机变量X,如下图。X这个变量的取值是随机的,因为这个过程是随机的。再比如骰子抛出的数值就是一个随机变量。
随机变量

随机变量有离散随机变量连续随机变量两种类型。之前举例的是离散随机变量,这些情况的结果可以一个个枚举出来,是有穷的。而连续随机变量有无限个结果,比如X定义为明天雨量的英寸数,它可以取到无限集合中的任意一个值。将两者区分开是因为其概率的分布有一些差别。

离散随机变量的概率分布
这里写图片描述
可以看出 p(X=6)=16 p(X5)=16+16 等。

连续随机变量的概率密度函数
这里写图片描述
问明天正好下2英寸雨的概率 P(Y=2) 是多少,这是不对的,不多不少正正好好衡量到2英寸几乎不可能,所以只能问Y大概是2的概率是多少,即 P(|Y2|<0.1) ,求(1.9,2.1)区间内相应曲线下方的面积,也就是概率密度函数两点间的定积分 2.11.9f(x)dx
连续型随机变量的概率密度函数 f(x) 下方面积为1,即 0f(x)dx=1 。离散型随机变量也一样,所有随机变量的概率加一起必然为1。

二项分布
假设有一枚硬币,两面均匀,往上抛5次。定义一个随机变量X=5次中正面向上的次数。
P(X=0)=C05(12)5=132
P(X=1)=C15(12)5=532
P(X=2)=C25(12)5=1032
P(X=3)=C35(12)5=1032
P(X=4)=C45(12)5=532
P(X=5)=C55(12)5=132
X的概率分布如下图。如果将试验次数改为500万次,条形之间的距离会非常近,开始趋近于钟形曲线。因为正面向上的概率=0.5,所以图像是对称的。如果正面向上的概率>0.5, P(X=5)>P(X=0) 图像会向右移,反之会向左移。
这里写图片描述

它对统计学的重要性还体现在,很多时候我们无法知道实际机理,只能假设很多随机事物在进行,把这些随机事件加起来,就像数正面一样,离散的情况会得到二项分布,连续的情况则得到正态分布。这很重要,因为很多时候人们都对特定事物进行这种假设,假设随机过程是符合二项或者正态分布。
P(X=n)=Cn5(12)5=5n!(5n)!(12)5 ,其中 Cn5 为二项式系数。称为二项分布的原因是根据二项式系数就可以确定其概率。

再举一个例子,假设投6次篮,每次命中概率为0.3,定义随机变量X=投进的次数。这比之前投硬币更有趣一些因为投硬币正反的概率是相等的,而这里投中的概率比不中的概率小。
P(X=0)=C06(0.7)6
P(X=1)=C16(0.3)(0.7)5
P(X=2)=C26(0.3)2(0.7)4
P(X=3)=C36(0.3)3(0.7)3
P(X=4)=C46(0.3)4(0.7)2
P(X=5)=C56(0.3)5(0.7)1
P(X=6)=C66(0.3)6
可以借助Excel计算。
1、定义命中概率0.3
这里写图片描述
2、计算一种情况的概率(F4是固定单元格快捷键)
这里写图片描述
3、计算二项系数(fact是阶乘函数)
这里写图片描述
4、计算概率
这里写图片描述
5、选中第一行,下拉得到全部6行。
这里写图片描述

可以看到二项系数对称,但是概率结果不对称,图像左移了。因为概率是0.3和0.7,不像抛硬币时的0.5和0.5。
这里写图片描述

如果改变0.3为0.7,则图像右移了。
这里写图片描述

随机变量的期望值E(X)和方差
假设总体是{3,3,3,4,5},算术平均值是 3+3+3+4+55 =3.6,可以改写为概率加权平均值, 3×3+1×4+1×55=35×3+15×4+15×5= 60% ×3+ 20% ×4+ 20% ×5 。但是好处是,之前我们需要知道总共有多少数,现在只需要知道数字出现的频率。
总体可以看作随机变量的每个实例或者说每次随机试验的集合,而随机试验可以做无数次,类似抛硬币无数次。但是样本只能取有限个。随机变量的期望值也就是总体的均值,即总体的集中趋势。当总体是无尽的时候,不能全部求和然后除以数目的方式求均值,但我们知道数字出现的频率,参照离散变量的概率分布即可。所以 E(X)=X×P(X) 。同理,连续随机变量 E(X)=0xf(x)dx

而方差是60% ×(33.6)2 +20% ×(43.6)2 +20% ×(53.6)2

二项分布的期望值E(X)和方差
假设X=n次试验成功的次数,其中每次成功的概率是p。则E(X)=n*p。
比如X=10次投篮的进球数,进球概率是40%。期望值是最有可能得到的那个结果,10*40%=4,因此最有可能进4次。每一次投篮有40%几率命中,可以理解为投篮总是中40%,如果投10次,那么中4次。
二项分布的方差公式 σ2=np(1p)

泊松过程
假设想知道任意时段通过街上某一点的车辆数,如某一小时内100辆车通过的概率。定义一个随机变量X=一小时内通过的车辆数,然后求出该随机变量的概率分布。假设街上此点任意时刻的情况没有差异,并且一段时间的车流量对另一段时间没有影响,即具有独立性。对于任何分布,我们首先可以求均值。我们坐在路边观察几小时的车流量,然后取平均,这就是总体均值很好的估计值了,也就是期望值。假设 E(X)=λ ,比如9.3辆车每小时。假设每分钟最多有一辆车通过,所以 λ<60

二项分布的期望值我们已经知道了, E(X)=np ,n是试验的次数,p是一次试验成功的概率。如果建模成二项分布,可以分成60分钟,看每分钟是否有车辆通过,即60次试验,每分钟有车辆通过的概率是 λ60 E(X)=np=60×λ60 ,则一小时内通过k辆车的概率是 P(X=k)=Ck60(λ60)k(1λ60)60k 。二项分布可以看每分钟内是否有车通过,但是如果一分钟内不止一辆车通过,也就是 λ>60 怎么办。

解决办法是分更多的区间,可以分成秒,这样得到 P(X=k)=Ck3600(λ3600)k(1λ3600)3600k 。如果 λ>3600 ,就继续进行区间分割,让区间越来越大(n很大,p接近0),一直下去就能得到泊松分布。

考虑让n趋近于 时的二项分布情况
这里写图片描述
假设测算出平均每小时是9辆车通过,则某小时正好有2辆车经过的概率 P(X=2)=922!e9

大数定律
这是数学和概率论中最直观的定律之一。假设有随机变量X,随机变量的n次观测样本的平均值 Xn¯=x1+x2+...+xnn 。大数定律是说,当n趋近于 时,样本均值趋近于随机变量的期望值, Xn¯E(X)

首先举一个特定的例子,假设随机变量X=抛100次硬币得到正面的次数, E(X)=100×12=50 。大数定律是说如果样本量足够大,那么样本均值将趋近于期望值。一次试验是指100枚硬币抛出,所以样本均值 Xn¯=55+65+45+...+xnn 。当n趋近于 时, Xn¯50

很多人可能会觉得,几次试验后,如果正面数高于均值,则定律会让后面的正面数更少,这是不对的。大数定律不关心前面发生的情况,比如有限次试验之后,可能得到样本均值在70,比期望值高出了很多,但是大数定律不关心这些有限次试验,后面还有无限次试验,这无限次试验的期望值是50。将有限个平均值高于期望值的数同无限个收敛于期望值的数一起求均值,最后肯定收敛回期望值。
所以并不是开始的正面多,后面就会反面多来弥补,这是赌徒谬误。收敛于期望值只是因为后面还有无限次收敛于期望值的试验,让前面的有限次试验根本可以忽略。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值