案例-摘自《商务与经济统计学》第13章
作为对65岁和65岁以上老人长期研究的一部分,位于纽约州北部地区的wentworth医疗中心的社会学家和内科医生调查了地理未知和抑郁症之间的关系。抽取60名健康状况不错的人组成一个随机样本,其中20人居住在弗罗里达州,20人居住在纽约州,20人居住在北卡罗莱纳州。对随机选中的每个人进行一次测量抑郁症的标准化实验,手机到的数据如下表所示,较高的检验分数表示有较高程度的抑郁症:
研究的第二部分是考察地理位置与患有慢性并的65岁和65岁以上的老人得抑郁症的关系,这些慢性病如高血压,关节炎等。具有这种身体状况的老人也被随机的选取60人组成一个随机样本,同样20人居住在弗罗里达州,20人居住在纽约州,20人居住在北卡罗莱纳州。
管理报告
- 利用描述统计学方法汇总这两部分研究的数据。关于抑郁症的得分,你的初步观测结果是什么呢?
- 对于两个数据集使用方差分析方法,在每种情况下陈述需要进行检验的假设,你的结论是什么呢?
- 在适当的地方使用单个处理方法的统计推断,你的结论是什么?
本文使用的统计分析方法包括:假设检验,方差分析,析因实验;
1、本文使用的统计推断方法:假设检验,方差分析和析因实验
假设检验:本案例使用的是总体方差未知的两总体均值差的检验,t检验
如果总体服从正态分布或者样本容量足够大,则根据中心极限定理样本均值可以近似服从正态分布,从而利用检验
统计量得出的结论是可信的;
方差分析可以用于检测三个或三个以上总体均值是否相等的检,方差分析的假定:
1、对每个总体,因变量服从正态分布;
2、因变量的方差对于所有总体都是相等的;
3、所有观测值都是独立的(样本中的每一个值都是相互独立的)。
k个总体均值相等的检验统计量为F=MSTR/MSE,检验统计量服从分子自由度为k-1,分母自由度为所有样本量的
和-k;
析因实验:是一种实验设计,可以同时得到两个或两个以上因子同时存在时的统计结论;实验条件包含了所有可能
的因子组合,例如,A因子有a个水平,B因子有b个水平,则实验将涉及收集ab个组合的数据。
2、样本数据基础分析
通过箱形图对样本数据进行异常值检测,数据一有三个异常值,分析过程中使用中位数替代异常值;
3、同一地理位置不同健康水平均值检验
结论:
1、p-值小于0.05的显著性水平,所以弗罗里达州的健康群体和慢性病群体的抑郁症检测分数的均值是有显著
差异的;
2、p-值小于0.05的显著性水平,所以纽约州的健康群体和慢性病群体的抑郁症检测分数的均值是有显著
差异的;
3、p-值小于0.05的显著性水平,所以北卡罗莱纳州州的健康群体和慢性病群体的抑郁症检测分数的均值是有显著
差异的;
4、同一健康水平不同地理位置均值检验
数据一单因子方差分析,假设
分别代表纽约州,弗罗里达州,北卡罗莱纳州健康状况不错的65岁和65岁以上老人抑郁症检测分数的平均值:
- 假设
,:三个不同的地理位置抑郁症检测分数的平均值之间有显著差异;
- 设置显著性水平为0.05;
- 使用F检验来进行方差分析:
- P-值小于显著性水平,所以拒绝原假设,我们认为三个地域的均值是有差异的。
数据二进行单因子方差分析,假设
分别代表纽约州,弗罗里达州,北卡罗莱纳州患有慢性病的65岁和65岁以上老人抑郁症检测分数的平均值::
- 假设
,:三个地域抑郁症检测值之间有显著差异;
- 设置显著性水平为0.05;
- 使用F检验来进行方差分析:
- P-值大于显著性水平,接受原假设,我们认为缓慢性病的65岁和65岁以上的老人在三个地域的检查分数均值是相等的,在地理位置上并没有显著差异;
5、两因子析因实验的ANOVA方法
- 在excel中合并数据一和数据二,加入慢性病因子;
- 点击tab页上的“数据”选项卡,“数据分析”,点击“方差分析:可重复双因素分析”,
输入区域,写入A1:D41即数据集的范围,每一样本的行数,本案例应该输入20,由于没慢性病和健康样本,每类占20行;输出区域选择空白单元格即可。
- 输析因实验方差分析结果:
- 析因实验方差分析结论:用于检验三个地域(因子一)抑郁症检测分数之间存在显著差异的p-值是7.10569541830164E-27远远小于0.05,所以对于三个不同地理位置,65岁和65岁以上老人抑郁症检验分数的平均值存在显著差异。对于健康状况(因子二),p-值是0.051,大于0.05的显著性水平;于是,对于健康状况良好和患有慢性病的65岁和65岁以上老人群体,抑郁症检测分数的平均值不存在显著差异;最后,因为交互作用影响的p-值是0.26,大于显著性水平0.05,所以不存在显著的交互作用影响。综上所属,这项研究没有理由让我们相信对于三个不同的地理位置,具有不同的健康状况的65岁和65岁以上老人群体在抑郁症的检测分数是有差异的。
6、结论
1、同一地理位置,健康人群和慢性病人群抑郁症检测分数的均值是有显著差异的;
2、健康人群,不同地理位置下抑郁症检测分数的均值有显著差异;
3、慢性病人群,不同地理位置下抑郁症检测分数的均值无显著差异;
4、地理位置对抑郁症检测分数有非常显著的影响。