一.假设检验
1.假设检验步骤
(1)提出假设:原假设和备择假设
(2)在原假设成立的条件下,构造一个检验统计量,该统计量有一个分布
(3)在给定置信水平下,求出接受域。
(4)计算检验统计量的值
2.假设检验中的两类错误
(1)
第一类错误:弃真错误
H0为真,拒绝H0
第二类错误:取伪错误
H0为假,接受H0
(2)显著性检验
构造检验统计量,计算检验统计量,若检验统计量落在置信区间内,则接受原假设。
首先计算临界值,通过计算概率密度函数的反函数求出临界值,和检验统计量比较,如果检验统计量大于临界值则拒绝原假设(显著异于0)。
检验分为单侧检验和双侧检验(如X不等于90和X>90的区别)
(3)假设检验p值法
由检验值计算出对应的概率值,即p值
求p值(1-累计密度函数的值),如果p值小于1-α,则拒绝原假设
注意:双侧检验是单侧检验的两倍
二.皮尔逊相关系数
1.概念
是描述两个变量之间线性相关程度的指标
前提:两个变量之间线性相关
三.对皮尔逊相关系数进行检验(检验是否成立)
1.步骤
(1)提出原假设和备择假设
(2)在原假设成立的条件下,构造一个符合某一分布的统计量
(3)将检验的值带入统计量中,得到一个特定的值(检验值)
(4)画出概率密度函数,给定置信水平,找到接受域和拒绝域
2.条件
1.实验数据通常假设是成对的来自于正态分布的总体
2.实验数据中的差距不能太大
3.每组样本中是独立抽样的
% 计算相关系数和p值
[R,P]=corrcoef(x)
四.正态分布检验
1.JB检验(大样本>30)
[h,p] = jbtest(x,alpha)
%alpha就是显著水品,一般取0.05,此时置信水平为0.95
% 用循环检验所有列的数据(jbtest函数每次只能检验一列数据)
n_c = size(Test,2); % number of column 数据的列数
H = zeros(1,6); % 初始化节省时间和消耗
P = zeros(1,6);
for i = 1:n_c
[h,p] = jbtest(Test(:,i),0.05);
H(i)=h;
P(i)=p;
end
disp(H)
disp(P)
2.Shapiro-wilk检验(小样本)
使用spss操作
3.Q-Q图
只需要看Q-Q图上的点是否在同一条直线上
qqplot(Test(:,1)
五.斯皮尔曼相关系数
1.概念
%% 斯皮尔曼相关系数
X = [3 8 4 7 2]' % 一定要是列向量哦,一撇'表示求转置
Y = [5 10 9 10 6]'
coeff = corr(X , Y , 'type' , 'Spearman')
% 计算矩阵各列的斯皮尔曼相关系数
R = corr(Test, 'type' , 'Spearman')
六.总结
1.连续数据,正态分布,线性关系,用皮尔逊相关系数是最巧当的,当然用斯皮尔曼相关系数也可以,只是效率没有皮尔逊相关系数高;
2.上述任一条件不满足,就使用斯皮尔曼相关系数,不能使用皮尔逊相关系数。
3.两个定序数据之间使用斯皮尔曼相关系数。
定序数据:指仅仅反映观测对象等级、顺序关系的数据,是由尺度计量形成的,表现为类别,可以进行排序,属于品质数据。
例如:优、良、差,我们可以用1表示差,2表示良、3表示优,但是,用 2 / 1 = 2 得出的 2 不具有任何含义。定序数据最重要的意义是代表了一组数据中的某种逻辑顺序。