CDA Level 1 数据分析师:4.3 统计分布
常用分布
离散型:
1. 伯努利分布X~B(1, p)
摸两个颜色小球。n = 1 时,二项分布又称为两点分布
P1= X P2 = 1-X
2. 二项分布X~B(n, p)
有放回的摸球
连续型:
1. 正态分布 X~N(μ,σ²)
连续型数据累计分布的倒数:是密度函数。
通过密度函数可以计算面积的方式计算概率,即为小于等于该处的概率。
2. 标准正态
抽样分布
1. 卡方分布 Y~χ²(n)
1. 多个标准正态分布的 平方和 即为卡方分布
2. 卡方分布用于 分析样本方差
3. 卡方分布时,自由度越大越正态
4. E(X²) = n ; D(X²)=2n
5. 两个卡方分布加在一起 仍然服从卡方分布
2. T分布
1. 分析大批量数据,但只能取小样本
2. X~N(0,1) 标准正态 Y~χ²(n),X,Y独立,t = X/sqrt(Y/X)
3. 自由度越大越收敛到标准正态
3. F分布
1. U~χ²(m),V~χ²(n),F = U/m / V/n , F~F(m, n)
2. 用于对比方差使用
3. 自由度越大越收敛到正态