2.极差、中程数
极差 = 最大数 - 最小数
中程数 = (最大数 + 最小数 )/ 2
9.箱线图
线形图:A.显示随时间的趋势 B.一个变量对另一个变量的趋势
条形图:事物归类
饼图:各部分的占比
茎叶图:了解分布情况
![](https://img-blog.csdnimg.cn/img_convert/9f8dc3c16dd2ae8047cd754569309d80.png)
箱线图:A.距离的散布情况和中位数
B.步骤:1.求总的数据的中位数a
2.求中位数a前后数据的各个中位数b,c
3.画图:最大数,最小数,中位数a,中位数b、c
![](https://img-blog.csdnimg.cn/img_convert/460f1a31b0b13465ab44e8b651ca9f49.png)
11.集中趋势
集中趋势(广义平均数):表示一个机率分布的中间值,有算数平均数,中位数,众数
离群值:有别于其他数字的数,影响集中趋势
12.样本和总体
样本均值:
![](https://img-blog.csdnimg.cn/img_convert/36c8aa2948726adb9ec5fb7198dbe773.png)
总体均值:
![](https://img-blog.csdnimg.cn/img_convert/7e8f07f1e820bfd4f75671929f5c52b5.png)
13.总体方差
方差:数据均值的远近程度和衡量总体或样本是否良好
![](https://img-blog.csdnimg.cn/img_convert/1762dd131637ba224fceb13427cbe603.png)
14.样本方差
![](https://img-blog.csdnimg.cn/img_convert/a67ccec7ff80d3e797ab083ddcb4f1a0.png)
15.标准差
优点:单位简洁(比如方差的单位是m²,那么标准差就是m)
![](https://img-blog.csdnimg.cn/img_convert/6e91ce12d7f4abe5defb3385df49475c.png)
16.储方差公式
方差公式的展开
训练:将总体方差展开为储方差公式
![](https://img-blog.csdnimg.cn/img_convert/40f6652796c4a3640951829eacb04873.png)
![](https://img-blog.csdnimg.cn/img_convert/8f4efa245a2296aac3d8d2f0be516b98.png)
17.随机变量
定义:从随机过程映射到数值的函数,随机变量来量化这些随机实验
分类:离散随机变量(情况的结果可以一一枚举,有穷)、连续随机变量(有无限个结果,取到无限集合的任意一个值,无穷)
离散随机变量的举例:抛硬币是一个随机过程,每抛一次都是一次实验,我们设置正面为1反面为0,这里数字可以是任何数字
连续随机变量的举例:设X为明天雨量的英寸数,x可能是1.1英寸、2.111英寸,描述这个可能值的无穷个数字,比如0-1之间的数字是无穷的
18.概率密度函数
举例:明天降雨量概率分布如下,求随机变量Y=2的概率
P ( | Y - 2 | < 0.1)——以下面积为Y=2的概率
注意:总面积为1
![](https://img-blog.csdnimg.cn/img_convert/f5761b33ac921a86b2fa740c0188b6a6.png)
19.二项分布1
1.求抛掷硬币的概率,设抛掷正面的次数为X
P(X = 0)= 1/32
P(X = 1)= 5/32
P(X = 2)= 5/16
P(X = 3)= 5/16
P(X = 4)= 5/32
P(X = 5)= 1/32
20.二项分布2
![](https://img-blog.csdnimg.cn/img_convert/580b6e94d372a197f942b6aadc26ee88.png)
P(X=n)= [5!/ n! ( 5 - n ) !] *1/32=
![](https://img-blog.csdnimg.cn/img_convert/38a185d0f0834357e68ff889a96fa3f3.png)
21.二项分布3
举例:打篮球需投篮6次,设每次投篮都是独立事件,每次命中概率为30%,定义随机变量为X(投进的次数)
n = 6 p = 30%
P(X=0) = (0.7)^6
P(X=1) =6*0.3* (0.7)^5——投中1次的排列组合*每次组合的概率
22.二项分布4
阶乘excel:fact
![](https://img-blog.csdnimg.cn/img_convert/1d6d42f5573f028ab19a886e589da548.png)
![](https://img-blog.csdnimg.cn/img_convert/ba8accdbe399afae92bb3588624f2352.png)
23.随机变量期望值E(X)
期望值=总体均值
使用范围:无穷总数无法除以数据点的个数,因此以频率做权重,计算出所有结果加权的平均值
计算方法:每种数字*该数字出现的频率,然后相加
![](https://img-blog.csdnimg.cn/img_convert/b5c2024326b3e1c4664ca6fd8e3d22e1.png)
![](https://img-blog.csdnimg.cn/img_convert/74678eb51eafdfcb54f639cd3a67bd0d.png)
24.二项分布的期望值E(X)
E(X)=N*P
x:随机变量
n:试验次数
k:试验成功的次数
p:成功的概率
![](https://img-blog.csdnimg.cn/img_convert/510bb14f0c8bc9cf787f45c3b2f84aaa.png)
![](https://img-blog.csdnimg.cn/img_convert/966157cd132caf49886f700e493d97f4.png)
![](https://img-blog.csdnimg.cn/img_convert/c4f991bf4adf776f88af9fb50b4818f4.png)
![](https://img-blog.csdnimg.cn/img_convert/59f03687322f0815082ebee932df9d30.png)
![](https://img-blog.csdnimg.cn/img_convert/4006eab92529a9ce89cba429e2f68318.png)
概率之和=1
25.泊松过程1(来自于二项分布)
任何时刻通过街上某一点的车辆数,想确定某一小时内100辆车或5辆车通过的概率。
1.定义一个相关的随机变量X
X = 一小时内通过的车辆数
2.注意:
2.1街上此点任意时刻的情况没有差异
2.2一段时间的车流量对另一段时间没有影响,具有独立性
3.E(X)= λ = np(λ:一小时内试验成功的总数目 n:时间区间个数 p:区间成功的概率)
3.1λ(车辆/小时) = 60(分/小时)*λ/60(车辆/分)
3.2
![](https://img-blog.csdnimg.cn/img_convert/664447c65260541ada90a6ff7fcb3a78.png)
3.3如果一分钟内不止一辆车通过怎么办?我们把一分钟有一辆车通过叫做成功,并未考虑一分钟内同时经过5辆车这样的情况,解决的办法是分更多的区间,将分改为秒。
![](https://img-blog.csdnimg.cn/img_convert/de64b8230341075860091353583fda3e.png)
![](https://img-blog.csdnimg.cn/img_convert/7de994e9dc06389ae2b7d06c3f5e92e7.png)
![](https://img-blog.csdnimg.cn/img_convert/a4a8c396d64f18093850c5f89eeb8925.png)
![](https://img-blog.csdnimg.cn/img_convert/cf9e8b6bfcd70532fded896b0a784e13.png)
![](https://img-blog.csdnimg.cn/img_convert/59a8c412a0d3b7be323f20b4a3e7749e.png)
![](https://img-blog.csdnimg.cn/img_convert/1156fcb7b23a79e040b72915131fd3f0.png)
注:
![](https://img-blog.csdnimg.cn/img_convert/b960d3e3db8d86b4e96d22f035d35aaf.png)
4.
![](https://img-blog.csdnimg.cn/img_convert/022df6db1d00623994885ff2434fc5dc.png)
26.泊松过程2
![](https://img-blog.csdnimg.cn/img_convert/192b593ef3e371ca8907daa32e8a7fd3.png)
假设λ=9(平均每小时9辆车通过)p(x=2)(每小时正好有两辆车通过的概率)
![](https://img-blog.csdnimg.cn/img_convert/c17d45bd376ac2e5e488cad9374a521a.png)
27.大数定律
大数定律:随机变量X的n次观测样本,将所有观测值平均起来,当样本均值趋近于随机变量的期望值,或者说n趋于∞时,样本均值趋于总体均值(样本量足够大的时候,样本均值接近期望值,或者说样本均值将收敛于总体均值或随机变量期望值)
![](https://img-blog.csdnimg.cn/img_convert/786dd1f0e0be16eb4096f98db66b5a05.png)
举例:
假设随机变量X等于抛100次硬币得到的正面的次数,期望值为50
![](https://img-blog.csdnimg.cn/img_convert/1866bd5cf0c504ea64654673bedc463b.png)
(55,65….n):抛n次100个硬币每次得到的正面的数
-
正态分布excel练习
![](https://img-blog.csdnimg.cn/img_convert/a39687c54a17efe7ace8b11b4fb2c65e.png)
![](https://img-blog.csdnimg.cn/img_convert/e78acd2402a89cf5a45b7b99ffa753e0.png)
![](https://img-blog.csdnimg.cn/img_convert/0eaa5a5f3695d8e88c0e6a25ebc07f61.png)
结论:当二项分布的样本足够多的时候,值会无限接近于正态分布
29.正态分布介绍
![](https://img-blog.csdnimg.cn/img_convert/5b7e6f32f3512b9980b335abf3f0b896.png)
![](https://img-blog.csdnimg.cn/img_convert/ea8314f27f5177e129d3cdb7304844cb.png)
表示离均值有多少个标准差远(Z)
面积:
累计分布函数(CDF)
![](https://img-blog.csdnimg.cn/img_convert/8563cad1f8e8b1281130846307555ca2.png)
excel正态分布函数(X,μ,σ,false)
累计分布true;求概率密度高度false
正态分布不能只看一点的概率,需要看两点之间曲线下方的面积,比如在该点±1的范围的积分
中线为均值,左右两条线是离均值的标准差远
μ=0;σ=4;σ²=16
![](https://img-blog.csdnimg.cn/img_convert/a262ac92570909e6215fbd9192b6bb07.png)
μ=-5;σ=4;σ²=16
![](https://img-blog.csdnimg.cn/img_convert/fe092905408cccdd807f62f198669fa4.png)
μ=-5;σ=2;σ²=4
标准差越小,越多点靠近均值,图像变窄
![](https://img-blog.csdnimg.cn/img_convert/bcaab3d3a38c67e8cb645dcda2103211.png)
μ=-5;σ=10;σ²=100
二项分布是有限的,而正态分布在整个实数轴上都有定义
![](https://img-blog.csdnimg.cn/img_convert/ed06d0208b004af5a5fa651eb60cd534.png)