更多MATLAB数据分析视频请点击,或者在网易云课堂上搜索《MATLAB数据分析与统计》 http://study.163.com/course/courseMain.htm?courseId=1003615016
.描述性统计量包括均值、方差、标准差、最大值、最小值、极差、中位数、分位数、众数、变异系数、中心矩、原点炬、偏度、峰度、协方差和相关系数。
统计图包括箱线图、直方图、经验分布函数图、正态概率图、P-P图和Q-Q图。
本章以下表中的数据示例,对其进行操作演示。
1 .描述性统计量包括均值、方差、标准差、最大值、最小值、极差、中位数、分位数、众数、变异系数、中心矩、原点炬、偏度、峰度、协方差和相关系数。
1.1 均值
MATLAB中用mean函数来计算样本均值,样本均值描述了样本观测数据取值相对集中的中心位置。
例:用mean函数计算工作表中的平均成绩(计算平均成绩的时候要去掉缺考的成绩,即成绩为0的)
%读取文件1.xls中的第一个工作表中的总成绩的数据即G2:G52,默认的就是读取第一个工作表中的数据,无需指定
%score=xlsread('C:\Users\Administrator\Desktop\MATLAB\MATLAB数据分析与统计\chapter4\1.xls','Sheet1','G2:G52');
score=xlsread('C:\Users\Administrator\Desktop\MATLAB\MATLAB数据分析与统计\chapter4\1.xls','G2:G52');
score=score(score>0); %只把成绩不为0的数据取出来,即去掉缺考成绩
score_mean=mean(score) %调用mean函数计算平均值
score_mean =
79
有时候样本均值会掩盖很多信息,你和马云平均一下你也是亿万土豪,这说明了样本均值受异常值的影响比较大,有一定的不合理性。
1.2 方差和标准差
样本方差有如下两种形式的定义:
样本标准差是样本方差的算术平方根,相应的它也有两种形式的定义:
样本方差或标准差表述了样本观测数据变异程度的大小,MATLAB统计工具箱中提供了var和std函数,分别用来计算样本方差和标准差。
调用格式
var(x)=var(x,0):用公式1计算方差
var(x,1) :用公式2计算方差
std(x)=std(x,0):用公式3计算标准差
std(x,1) :用公式4计算标准差
例:对上一列中的数据中的总成绩求方差和标准差
%读取文件1.xls中的第一个工作表中的总成绩的数据即G2:G52,默认的就是读取第一个工作表中的数据,无需指定
%score=xlsread('C:\Users\Administrator\Desktop\MATLAB\MATLAB数据分析与统计\chapter4\1.xls','Sheet1','G2:G52');
score=xlsread('C:\Users\Administrator\Desktop\MATLAB\MATLAB数据分析与统计\chapter4\1.xls','G2:G52');
score=score(score>0); %只把成绩不为0的数据取出来,即去掉缺考成绩
%计算方差和标准差
ss1=var(score) %式1
ss1=var(score) %式1
ss2=var(score,1) %式2
s1=std(score) %式3
s1=std(score,0) %式3
s2=std(score,1) %式4
ss1 =
103
ss1 =
103
ss2 =
100.8980
s1 =
10.1489
s1 =
10.1489
s2 =
10.0448
1.3 最大值和最小值
max函数用来计算样本最大值,min函数用来计算样本最小值
score=xlsread('C:\Users\Administrator\Desktop\MATLAB\MATLAB数据分析与统计\chapter4\1.xls','G2:G52');
score=score(score>0); %只把成绩不为0的数据取出来,即去掉缺考成绩
score_max=max(score)
score_min=min(score)
score_max =
98
score_min =
49
1.4 极差
range函数用来计算样本的极差(最大值-最小值),极差可以作为样本观测数据变异程度大小的一个简单度量
score=xlsread('C:\Users\Administrator\Desktop\MATLAB\MATLAB数据分析与统计\chapter4\1.xls','G2:G52');
score=score(score>0); %只把成绩不为0的数据取出来,即去掉缺考成绩
score_range=range(score)
score_range =
49
1.5 中位数
将样本观测值从小到大依次排列,位于中间的那个观测值,称为样本中位数,它描述了样本观测数据的中间位置。median函数用来计算样本的中位数
score=xlsread('C:\Users\Administrator\Desktop\MATLAB\MATLAB数据分析与统计\chapter4\1.xls','G2:G52');
score=score(score>0); %只把成绩不为0的数据取出来,即去掉缺考成绩
score_meidan=median(score)
score_meidan =
80
1.6 分位数
分位数就是先把一列数按从小到大排序,如果一共有n个数,那么四分之一分位数就是第n*0.25个数,四分之三分位数就是第n*0.75个数,以此类推,p分位数就是第n*p个数.如果n*p不是整数则往最接近的较大的整数上归。样本的0.5分位数就是样本的中位数。
MATLAB统计工具箱中提供了quantile和prctilte,均可用来计算样本的分位数,一个用小数表示分位数,一个用百分数表示分位数
score=xlsread('C:\Users\Administrator\Desktop\MATLAB\MATLAB数据