在统计学上,我们会遇到一些常见的分布,除了正态分布外,,如t检验对应的t分布,检验对应的
分布,方差分析对应的F分布等。这些分布是统计学的基础,在假设检验、方差分析等领域都起着至关重要的作用。在此,我们对这四种分布做详细的介绍,并附上MATLAB代码。
四种分布的讲解摘自MATLAB 2016的统计学和机器学习工具箱,有兴趣的可以去查看英文原版。
另外,为了方便,上传文档为图片格式,可能有些模糊,需要pdf或word原版的可以评论留下邮箱,有时间发送给大家。
一、正态分布
正态分布的概率密度函数为
背景
正态分布是两个参数的曲线族,第一个参数µ是均值,第二个参数σ是标准差。标准正态分布(记为Φ(x)) 将 µ 设为0,将 σ 设为 1。
正态分布的第一次使用是对二项式的连续近似。使用正态分布进行建模的通常理由是中心极限定理,其中(大致)指出,当样本大小变为无穷大时,来自任何具有有限均值和方差的分布的独立样本的总和会收敛到正态分布。
参数
要可靠地使用平均值和标准差等统计参数,需要为它们提供一个好的估计器。 最大似然估计(MLE)提供一个这样的估计。 但是,MLE可能存在偏差,这意味着其参数的预期值可能与估计的参数不相等。 例如,MLE偏向于估计正态分布的方差。 通常用于估计正态分布参数的无偏估计是最小方差无偏估计(MVUE)。 MVUE具有参数的所有无偏估计的最小方差。
正态分布的参数μ和的MVUE是样本均值和方差。 样本均值也是μ的MLE。 以下是方差的两个常见公式。
(1)
(2)
其中
例如,假设您想要估计美国所有四年级儿童身高的平均值μ和方差。 函数normfit返回均值μ的MVUE和平方根
的MVUE,以及μ和
的置信区间。 这是一个有趣的例子,模拟随机选择的四年级班级学生的身高(英寸)。
rng default; % For reproducibility
height = normrnd(50,2,30,1); % Simulate heights
[mu,s,muci,sci] = normfit(height)
mu =
51.1038
s