相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。相关性分析是很常用的方法。
介绍Spearman rho相关系数(斯皮尔曼秩相关性系数),同时介绍画相关性系数图和显著性检验。
Spearman rho相关性分析
1.秩相关系数
秩相关系数(Coefficient of Rank Correlation),又称等级相关系数,反映的是两个随机变量的变化趋势方向和强度之间的关联,是将两个随机变量的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。它是反映等级相关程度的统计分析指标,常用的等级相关分析方法有Spearman相关系数和Kendall秩相关系数等。主要用于数据分析。斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数。
- 使用条件
数据为非线性或非正态
至少有一组数据为等级类型,如排名,位次
数据中有异常值或错误值,斯皮尔曼相关系数对于异常值不太敏感,因为它基于排序位次进行计算,实际数值之间的差异大小对于计算结果没有直接影响
符号说明
A3:今年您的家庭收入与上年相比
B3:您的家庭中是否有特殊家庭成员(未成年子女、六十岁及以上老人,无劳动能力人等)
A4:您家的住房情况如何
B4:您的家庭中主要劳动力有几人
C4:您的家庭一个月的总支出约为
D4:政府政策使您收益最多的地方在哪里
E4:您认为农村家庭最想得到的社会保障是
A5:您认为政府对农村的资金扶持重点应该放在
B5:您的家庭主要收入来源是
C5:您的家庭年均收入约为
D5:您认为目前在农村消费受到了哪方面的限制
A6:您的家庭成员中最高的受教育程度是
B6:您认为您所在农村经济改善最多的地方在
C6:您的家庭经济收口变化的原因为
A7:您的家庭日常主要开支包括
将上述矩阵采用相关性分析,得到如下图所示的15*15的相关系数热力图
图中的相关性矩阵反映了所调查村民情况的15个问题的相关性和它们之间的关联度大小,由图可以清晰的得出经济问卷的15个变量的相关性关系
分析热力图中的相关系数,以相关性高于0.7为基准,发现太后庄村的村民家庭收入与上年相比和家庭中是否有特殊家庭成员,家庭住房情况,家庭主要劳动力人数,村民最想得到的社会保障关联性在0.7以上;村民家庭中是否有特殊家庭成员和家庭收入与上年相比,家庭中主要劳动力有几人,家庭成员中最高的受教育程度,所在农村经济改善最多的地方关联性在0.7以上;住房情况如何和家庭一个月的总支出约为,农村家庭最想得到的社会保障,家庭年均收入,家庭日常主要开支的关联性在0.7以上;家庭中主要劳动力有几人和家庭收入与上年相比,家庭中是否有特殊家庭成员(未成年子女、六十岁及以上老人,无劳动能力人等),家庭成员中最高的受教育程度,所在农村经济改善最多的地方的关联性在0.7以上;家庭一个月的总支出和住房情况,农村家庭最想得到的社会保障,家庭年均收入,所在农村经济改善最多的地方,家庭日常主要开支的关联性在0.7以上;农村家庭最想得到的社会保障和家庭收入与上年相比,住房情况,家庭一个月的总支出,家庭年均收入,家庭日常主要开支的关联性在0.7以上;政府对农村的资金扶持重点和目前在农村消费受到了哪方面的限制的关联性在0.7以上;家庭年均收入和住房情况,家庭一个月的总支出,农村家庭最想得到的社会保障,家庭日常主要开支的关联性在0.7以上;目前在农村消费受到了哪方面的限制和政府对农村的资金扶持重点,家庭经济收口变化的原因的关联性在0.7以上;家庭成员中最高的受教育程度和家庭收入与上年相比,家庭中是否有特殊家庭成员(未成年子女、六十岁及以上老人,无劳动能力人等),家庭中主要劳动力的关联性在0.7以上;所在农村经济改善最多的地方和家庭收入与上年相比,家庭中是否有特殊家庭成员(未成年子女、六十岁及以上老人,无劳动能力人等),家庭中主要劳动力,家庭一个月的总支出,农村家庭最想得到的社会保障的关联性在0.7以上;家庭经济收口变化的原因和目前在农村消费受到了哪方面的限制的关联性在0.7以上;家庭日常主要开支和住房情况,家庭一个月的总支出,农村家庭最想得到的社会保障,家庭年均收入的关联性在0.7以上。
根据以上结论结合太后庄村村民经济问卷情况,发现村民家庭收入的变化原因和家庭主要收入来源关系密切,直接影响着村民的家庭年均收入,与上年相比的家庭收入,一个月的总支出等,根据太后庄村村民希望的政府扶持政策和社会保障以及村民的家庭收入主要来源情况,政府可以通过提高村民的基本养老保险,最低生活保障制度,大病医疗保险等提高农村村民的生活健康水平,同时应加大农村九年义务教育的普及,提高农村入民的教育水平,改善村庄的交通设施,引入先进农业生产技术,扶植农村企业,引入规模农机收割,增加农机农具补贴,提高生产效率,提高农产品的产量,提高农村村民收入。
clc,clear
data=xlsread('各品类销售量.xlsx');
figure
% 求维度之间的相关系数
rho = corr(data, 'type','pearson');
% 绘制热图
string_name={'花叶类日销售量','花菜类日销售量','水生根茎类日销售量','茄类日销售量','辣椒类日销售量','食用菌日销售量'};
xvalues = string_name;
yvalues = string_name;
% Spearman系数
figure
[xiangguan,~]=corr(data,'Type','Spearman');
H = heatmap(xvalues,yvalues, rho, 'FontSize',12, 'FontName','宋体');
H.Title = 'Spearman相关系数矩阵';
colormap default