第2次打卡内容包括,课时3:数据分布、课时4:区间估计
课时3 数据分布
1. 正态分布(高斯分布)
钟形曲线
data = np.random.normal(mean, std, size=size)
sns.histplot(data, kde=True)
2. 标准正态分布:均值为0,方差为1
常用于标准化数据或进行假设检验
data = np.random.standard_normal(size=size)
sns.histplot(data, kde=True)
3. t分布
用于小样本情况下对总体均值的推断,当样本容量较小或总体方差未知时,使用t分布进行推断更准确。
t分布的形态类似于正态分布,但尾部较宽,t分布的自由度决定了其形状。
4. F分布
用于比较两个样本方差的差异,常用于方差分析和回归分析中。
dfn=5 # 分子自由度
dfd=10 # 分母自由度
data = np.random.f(dfn, dfd, size=size)
sns.histplot(data, kde=True)
5. 卡方分布
检验观察值与理论值之间的拟合优度,常用于拟合优度检验、独立性检验中国。
df=5 # 自由度
data = np.random.chisquare(df, size=size)
sns.histplot(data, kde=True)
三大分布之间可以相互推导
课时4 区间估计
区间估计经常用于质量控制领域来检测生产过程是否正常运行或者控制之中,也可以用来监控互联网领域各类数据指标是否在正常区间。