1.案例数据简介
“京东手机评论.xlsx”数据文件记录了部分客户对京东上某品牌手机的评分,以此数据文件为例,利用探索分析该数据文件中的不同颜色手机评分的最大值、最小值、众数、平均数等,并检验样本数据的正态性。
在SPSS的变量视图中建立变量“评论ID”、“评论时间”、“商品颜色”、“商品尺寸”和“商品评分”等5个变量,在“商品颜色”变量中“釉白色”编码为“1”、“秘银色”编码为“2”、“亮黑色”编码为“3”、“秋日胡杨”编码为“4”、“夏日胡杨”编码为“5”;在“商品尺寸”变量中“8GB+128GB”编码为“1”、“8GB+256GB”编码为“2”,如图2-22所示。
图2-22 数据文件变量视图
在SPSS中,把相关数据输入到各个变量中,输入后数据视图如图2-23所示。
图2-23 数据文件数据视图
2.案例操作步骤
打开数据文件,输入SPSS Statistics数据编辑器窗口,然后在菜单栏中选择【分析】|【描述统计】|【探索】选项,打开“探索”对话框。
将变量“商品评分”选入“因变量列表”,将“商品尺寸”选入“因子列表”。
单击“统计”按钮,选中“描述”复选框;单击“图”按钮,选中“箱图”选项组中的“因子级别并置”、“描述图”选项组中的“茎叶图”、“含检验的正态图”复选框,“含莱文检验的分布-水平图”选项组中选择“无”选项。
在“探索”对话框中选中“显示”选项组中的“两者”单选按钮,然后单击“确定”按钮就可以输出探索分析的结果。
3.案例结果分析
单击“确定”按钮,SPSS Statistics查看器窗口的输出结果如图2-24至图2-32所示。
图2-24给出了探索分析中的变量样本数据的有效个数和百分比、缺失个数和百分比及合计个数和百分比,通过“个案处理摘要”可以看出本案例中无数据缺失。
图2-24 个案处理摘要
图2-25给出了商品评分按照商品尺寸的一些统计量,如平均值、中位数、方差、标准差等,通过该表可以看出不同商品尺寸的手机评分均值和中位数数值是一样的。
图2-25 变量描述
图2-26给出了因变量样本数据按照因子变量分类的正态性检验结果。列中“统计”表示检验统计量的值,“自由度”表示检验的自由度,“显著性”表示检验的显著水平。对本案例而言,正态检验的原假设是:数据服从正态分布。从“正态性检验”中柯尔莫戈洛夫-斯米诺夫统计量、夏皮洛-威尔克统计量可以看出,不同尺寸商品的评分显著水平都小于5%,拒绝原假设,即不服从正态分布。
图2-26 正态性检验表
图2-27给出了商品评分的茎叶图,图中“频率”表示相应数据的频数,“Stem”即茎,“叶”即叶子,两者分别表示数据的整数部分和小数部分,“主干宽度”表示茎宽。
图2-27 茎叶图
图2-28和图2-29分别给出了商品尺寸为8GB+128GB商品评分的标准Q-Q图和趋降Q-Q图。标准Q-Q图中的观察点似乎与直线很接近,但是由于差别数值较小,我们需要查看偏离大小。在趋降Q-Q图中,实测值与正态的偏差还是比较大,因此不能说明服从正态分布,这个结论和正态性检验的结论一致。
图2-28 标准Q-Q图
图2-29 趋降标准Q-Q图
图2-30和图2-31分别给出了商品尺寸为8GB+256GB商品评分的标准Q-Q图和趋降Q-Q图。标准Q-Q图中的观察点似乎与直线很接近,但由于差别数值较小,我们还需要查看具体偏离大小。在趋降Q-Q图中,实测值与正态的偏差还是比较大的,因此不能说明服从正态分布,这个结论和正态性检验的结论一致。
图2-30 标准Q-Q图
图2-31 趋降标准Q-Q图
图2-32给出了按因子变量商品尺寸区分的商品评分的箱图,其中箱图两头的两条实线分别表示最大值和最小值,中间的黑色实线表示中位数,而箱体的上下两端为四分位数。
图2-32 箱图