MATLAB 2.1.1 一维样本数据的基本统计量
描述数据的基本特征主要为集中位置和分散程度
1.均值、中位数、分位数与三均值
以下的X均表示为样本数据
均值:描述了数据取值的集中趋势,易受异常值的影响而不稳健。
m=mean(X);
中位数:描述数据的中心位置的数字特征,比中位数大或小的数据个数大约为样本容量的一半。受异常值的影响小,具有较好的稳健性。
MD=median(X);
分位数:p=0.5时,表示数据的0.5分位数,即等于中位数。
0.75分位数与0.25分位数比较常用。分别称为上、下四分位数。
Mp=prctile(X,P);
P为介于0~100之间的整数,P=100*p,输出Mp为P%分位数
三均值:为了兼顾均值和中位数的优势,提出三均值概念。是上四分位数、中位数与下四分位数的加权平均。
w=[0.25,0.5,0.25];
SM=w*prctile(X,[25;50;75]);
2.方差、变异系数与高阶矩
以下的X均表示为样本数据
方差:描述数据取值分散性的一种度量。
S=var(X,flag);
flag为可选项,默认取0。若flag取1,表示未修正样本方差。
标准差:方差的算术平方根
d=std(X,flag);
flag为可选项,默认取0。若flag取1,表示未修正样本标准差。
变异系数:描述数据相对分散性的统计量,是一个无量纲的量,一般用百分数表述。
v=std(X)./abs(mean(x));
高阶矩:编程计算k阶原点矩与中心距为
ak=mean(X.^k); %k阶原点矩
bk=mean((X-mean(X)).^k); %k阶中心距
MATLAB提供中心距命令moment,调用格式为:
bk=moment(X,k);
3.样本的极差与四分位极差
以下的X均表示为样本数据
极差:较简单的表示数据分散性的数字特征
R=range(X);
四分位极差:度量数据分散性的一个重要数字特征
R1=iqr(X);
4.偏度与峰度
以下的X均表示为样本数据
偏度:用于衡量分布的非对称程度或偏斜程度的数字特征。
sk=skewness(X,flg);
flg系统默认为1.flg=0是修正的偏度;flg=1是按(2.1.14b)计算偏度。
sk>0时,数据分布右偏,右边的数据更散; sk<0时,数据分布左偏,左边的数据更散;sk接近于0时,称分布无偏倚即认为分布是对称的。
正态分布的样本数据的偏度接近于0,当样本数据的偏度与零相差较大,则可初步拒绝样本数据来自于正态分布总体。
峰度:用来衡量数据尾部分散性的指标。当数据的总体分布是正态分布时,峰度近似为0。
ku=kurtosis(X,flg)-3;
flg系统默认为1.flg=0是修正的峰度;flg=1是按(2.1.15b)计算峰度。
另外:熵的计算也加上
信息熵”解决信息的量化度量问题。信息熵这个词是C.E.Shannon(香农)从热力学中借用过来的。热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度
en=entropy(X);