数学期望:随机变量的平均取值的大小 一个概率性事件的平均大小:盒子里没球的概率0.01 1个球的概率:0.7 2个球概率0.2,3个球的概率0.09
一个各自最有可能的球数:0.01*0+0.7*1+0.2*2+0.09*3 = 1.37
概率密度: 某种事物发生的概率占总概率1的比例,越大说明密度越大
概率密度分布:某事件发生概率的分布
![56892e2f7b28550a837205401e2686e2.png](https://i-blog.csdnimg.cn/blog_migrate/0c3670f7a4b0bd5e2dda313a5d9a3597.png)
- 离散型分布:二项分布,泊松分布
- 连续型分布:指数分布,正态分布,卡方分布,t分布,F分布(后三个也属于抽样分布)
- 抽样分布只与自由度有关:即(抽样)样本含量
1.二项分布
重复试验:每种结果概率恒定
![322f96f9b1fb2c001d7d68cbc4c91bdd.png](https://i-blog.csdnimg.cn/blog_migrate/d7a70d3c065247ccb4708efa6bbe4405.png)
所有概率组成一个分布:二项分布
2.泊松分布
一个单位(时间,空间,面积等)某稀有事件发生的概率:
![f41a206be9e5a83aedad88f4b28f1b4f.png](https://i-blog.csdnimg.cn/blog_migrate/b3123417975fdf9a0b0833457c26d62b.png)
所有概率组成一个分布:泊松分布
产生条件:随机事件相继出现:符合平稳性,无后效性,普通性
平稳性:在任意时间区间内,事件发生k次法概率只依赖于区间的长度而与区间端点无关。
无后效性:在不相重叠的时间段内,事件发生是相互独立的。
普通性:如果时间区间充分小,事件出现两次或两次以上的概率可忽略不计。
二项分布在事件发生的概率很小,重复次数很大的情况下,分布接近泊松分布。
- 均匀分布
连续型均匀分布:
可能的结果是连续的,每种可能概率相等
离散型均匀分布:n中可能的结果,每种可能概率相等
2.指数分布
用于表示独立随机事件发生的时间间隔,比如旅客进机场的时间间隔
- 连续性分布,每个点的概率
![b923e7a051b2a8e798790f8225d39795.png](https://i-blog.csdnimg.cn/blog_migrate/34d64ab65ab6606ebc3b22d0405819f2.png)
无记忆性:已经有历史数据,但是发生概率与未发生的事件的发生概率相同
![fd237528c28c146bee1d1674a0b40a7c.png](https://i-blog.csdnimg.cn/blog_migrate/2c56e1f32525f39795b35ba4e8ab30a2.png)
3.正态分布
- 描述一个群体的某个指标
- 指标连续
- 特定指标在整个群体都有一个概率
![5fed0d95892070e1c1fca73c2aec74da.png](https://i-blog.csdnimg.cn/blog_migrate/14a716a61ab4f645b9404420a6de9309.png)
所有概率组成一个分布:正态分布
中心极限定理:
不论总体的分布形式如何,只有样本(抽样样本)含量n足够大,样本均数的分布近似正态分布,均数与总体均数相等,标准差为 总体标准差/n的开方。
由此:t分布,F分布,卡方分布在抽样样本含量很大时不需要对总体样本是否正态有要求。
4.t分布
- 总体样本为正态分布(抽样样本含量小时:要求为正态分布;较大时由于中心极限定理,近似正态分布,因而差值的概率也呈正态分布,实际上t分布的每条曲线都是正态分布曲线。
- 从总体样本中抽样很多小样本,每个小样本有一个均值,均值与总体均值有差值t,差值用t估计。
- 可能很多差值估计都是t,t出现的次数占所有小样本的比例:概率,所有t值的概率分布:t分布的一个曲线
- 另外做个抽样,每个小样本包含的观测数不同,形成t分布的另外一个曲线。
- t分布只与自由度有关,自由度越大,越接近正态分布,自由度:抽样小样本的具体观测值的个数(抽样样本含量)-1
![f691e11927d677dea836a9a7e9558d03.png](https://i-blog.csdnimg.cn/blog_migrate/2ccc7817a8fbd28a8b33676de6c95c02.png)
![72613e715660056d08ae52d389833fba.png](https://i-blog.csdnimg.cn/blog_migrate/777febc1cda9bfc1e7586bdff01ce3c4.png)
5.卡方分布(chi square distribution):
- 从总体样本中抽样很多小样本,观测值平方后求和:卡方,重复抽样获得多个卡方值。
- 可能很多卡方都是相同,相同卡方出现的次数占总次数的比例:概率,所有概率组成的分布:卡方分布的一个曲线。
- 另外做个抽样,选取每个小样本包含的观测数不同,形成卡方分布的另外一个曲线。
- 其余自由度,样本要求同t分布相同,这里也只是将差值换做卡方。
- 卡方的概率密度分布图:
![077d65b840f4f778bef740fb6cdb574c.png](https://i-blog.csdnimg.cn/blog_migrate/03a1b1c7e68a63d824b04e57302e9b09.jpeg)
6.F分布
- 两总体样本方差比的分布。
- 抽取两个样本,两个样本的观测数可以相同也可不同,分别计算卡方,新变量F:重复抽样获得多个F值。
- 可能很多F值都是相同,相同F值出现的次数占总次数的比例:概率,所有概率组成的分布:F分布的一个曲线。
- 其余与t分布相同。
![c5a34bd260bbb82501df108d90155acb.png](https://i-blog.csdnimg.cn/blog_migrate/5917a369221bffca62e2b25df489e6c4.png)
t分布:在推算总体平均值时,基于样本平均数的抽样分布。
卡方分布:用样本方差估计总体方差时,必须已知样本方差的抽样方差。
F分布:比较两个总体方差比是否相等时,必须已知样本方差的联合抽样分布。