此次同样通过一道例题讲解如何运用spss进行对数据的主成分分析
下表是我国2005年第1、2季度各地区城镇居民家庭收支基本情况的统计数据。根据这些数据进行主成分分析,并依据分析结果对地区城镇居民家庭收支情况进行排序和分类。
地区 | 平均每户人口(人) | 平均每户就业人口(人) | 平均每一就业者负担人数(人) | 平均每人实际可支配收入(元) | 平均每人消费性支出(元) | 北京 | 2.9 | 1.6 | 1.8 | 8845.1 | 6249.3 | 天津 | 2.9 | 1.4 | 2 | 6189.1 | 4549.1 | 河北 | 2.9 | 1.5 | 1.9 | 4582.9 | 3317.3 | 山西 | 3 | 1.5 | 2 | 4359.7 | 3066.8 | 内蒙 | 2.9 | 1.5 | 1.9 | 4712.1 | 3557.8 | 辽宁 | 2.9 | 1.4 | 2 | 4501.2 | 3530.7 | 吉林 | 3 | 1.5 | 1.9 | 4293.7 | 3271.5 | 黑龙江 | 2.8 | 1.3 | 2.2 | 3902.3 | 2858.7 | 上海 | 3 | 1.6 | 1.9 | 9656.5 | 6623.3 | 江苏 | 2.9 | 1.4 | 2.1 | 6371.1 | 4222.1 | 浙江 | 2.8 | 1.4 | 1.9 | 8921.2 | 6127.5 | 安徽 | 3 | 1.6 | 1.9 | 4311.6 | 3121.4 | 福建 | 3.1 | 1.6 | 1.9 | 6471.8 | 4292.3 | 江西 | 2.9 | 1.5 | 1.9 | 4369.7 | 2945.1 | 山东 | 2.9 | 1.7 | 1.7 | 5357.7 | 3517.6 | 湖南 | 3 | 1.5 | 2 | 4558.5 | 3338.1 | 湖北 | 2.9 | 1.4 | 2.1 | 5010.7 | 3616.4 | 广东 | 3.3 | 1.7 | 1.9 | 7828.8 | 5941.7 | 广西 | 3 | 1.5 | 2 | 4876.8 | 3508.5 | 海南 | 3.6 | 1.6 | 2.3 | 4323 | 2975.4 | 重庆 | 3.1 | 1.6 | 1.9 | 5283.8 | 4187.8 | 四川 | 2.9 | 1.4 | 2 | 4333.5 | 3326.7 | 贵州 | 3.1 | 1.4 | 2.1 | 4177.4 | 3066.3 | 云南 | 3 | 1.3 | 2.2 | 4619.8 | 3415.4 | 西藏 | 3.4 | 1.7 | 2 | 4668.8 | 4467.1 | 陕西 | 3 | 1.5 | 2 | 4342.7 | 3186.6 | 甘肃 | 2.9 | 1.5 | 1.9 | 4031.8 | 3113.2 | 青海 | 3 | 1.3 | 2.3 | 3971.8 | 3070.3 | 宁夏 | 2.9 | 1.3 | 2.2 | 4078.3 | 3133.7 | 新疆 | 3 | 1.5 | 2.1 | 4018.4 | 3015.1 | |
主成分分析 操作步骤:
-
录入数据:在变量视图将地区变量类型更改为字符串,其他类型为数字,再将题目数据复制粘贴到spss。 -
数据标准化:
勾选“将标准化值另存为变量”
最后在数据视图得到新的标准化值数据列。
-
因子分析
将分析变量全部移入变量框,在相关性矩阵框中勾选系数和kmo检验
点击提取,方法选择为主成分,勾选碎石图。 最后点击继续和确定。 运行结果与分析:
KMO 和巴特利特检验 | KMO 取样适切性量数。 | .377 | 巴特利特球形度检验 | 近似卡方 | 149.179 | 自由度 | 10 | 显著性 | .000 |
由KMO 和巴特利特检 由KMO 和巴特利特检验p值小于0.05则表示有显著性,而KMO取样适切性量数。大于0.6比较适合,但其值为0.377所以数据不适合做主成分分析。
相关性矩阵 | | Zscore(平均每户人口(人)) | Zscore(平均每户就业人口(人)) | Zscore(平均每一就业者负担人数(人)) | Zscore(平均每人实际可支配收入(元)) | Zscore(平均每人消费性支出(元)) | 相关性 | Zscore(平均每户人口(人)) | 1.000 | .530 | .244 | -.051 | .039 | Zscore(平均每户就业人口(人)) | .530 | 1.000 | -.638 | .322 | .363 | Zscore(平均每一就业者负担人数(人)) | .244 | -.638 | 1.000 | -.437 | -.425 | Zscore(平均每人实际可支配收入(元)) | -.051 | .322 | -.437 | 1.000 | .969 | Zscore(平均每人消费性支出(元)) | .039 | .363 | -.425 | .969 | 1.000 |
总方差解释 | 成分 | 初始特征值 | 提取载荷平方和 | 总计 | 方差百分比 | 累积 % | 总计 | 方差百分比 | 累积 % | 1 | 2.605 | 52.092 | 52.092 | 2.605 | 52.092 | 52.092 | 2 | 1.390 | 27.794 | 79.886 | 1.390 | 27.794 | 79.886 | 3 | .937 | 18.746 | 98.631 | | | | 4 | .045 | .896 | 99.528 | | | | 5 | .024 | .472 | 100.000 | | | | 提取方法:主成分分析法。 |
显示提取的主成分,SPSS默认提取特征值大于1的主成分,本题提取了两个主成分其特征值分别为2.605和1.390。前两个主成分的贡献率分分别为52.092%和27.794%,累计贡献率不足80%,没有基本保留了原来指标的信息,假如其贡献率超过85%,这样就由原来的5个指标转化为2个新指标,起到了降维的作用。碎石图则展示了每组的特征值可以用于验证图表总方差检验的特征值是否造假。
成分矩阵a | | 成分 | 1 | 2 | Zscore(平均每户人口(人)) | .116 | .933 | Zscore(平均每户就业人口(人)) | .707 | .610 | Zscore(平均每一就业者负担人数(人)) | -.737 | .137 | Zscore(平均每人实际可支配收入(元)) | .874 | -.290 | Zscore(平均每人消费性支出(元)) | .886 | -.209 | 提取方法:主成分分析法。 | a. 提取了 2 个成分。 |
主成分得分公式为f=w1*x1+w2*x2+…+wn*xn其中wj=为主成分矩阵的值与该成分特征值(2.605和0.390)的开根值,代表权重。每个主成分矩阵的值都要除以该成分特征值的开根值得到主成分公式的系数。
再次输入成分矩阵的系数数据
通过spss转换功能进行计算w1和w2(主成分公式的系数)
最终的到主成分F1和F2的系数w1和w2 所以主成分方程为: F1=0.072*x1 +0.438*x2-0.457*x3+0.542*x4 +0.549*x5 F2=0.791*x1+0.517*x2 +0.116*x3-0.246*x4-0.177*x5 综合得分为:(其系数来源于两个主成分对总体的贡献度) F=0.521/(0.521+0.278)*F1+0.278/(0.521+0.278)*F2 (该公式后期修改过 以下数据就是错误的)
然后通过spss计算F的具体数值 对最后F值进行排序,便可以对F对应城市进行排序,最终得到如下城市排名: (F公式后期修改过 以下数据仅供参考)
城市 | 综合得分 | 排名 | 城市 | 综合得分 | 排名 | 广东 | 2.08 | 1 | 湖南 | -0.17 | 16 | 上海 | 1.7 | 2 | 陕西 | -0.23 | 17 | 北京 | 1.51 | 3 | 山西 | -0.25 | 18 | 西藏 | 1.33 | 4 | 江西 | -0.28 | 19 | 福建 | 0.91 | 5 | 甘肃 | -0.29 | 20 | 山东 | 0.89 | 6 | 江苏 | -0.34 | 21 | 重庆 | 0.73 | 7 | 新疆 | -0.46 | 22 | 浙江 | 0.57 | 8 | 贵州 | -0.59 | 23 | 海南 | 0.51 | 9 | 辽宁 | -0.6 | 24 | 安徽 | 0.21 | 10 | 湖北 | -0.65 | 25 | 吉林 | -0.07 | 11 | 四川 | -0.66 | 26 | 广西 | -0.09 | 12 | 云南 | -1.06 | 27 | 内蒙 | -0.1 | 13 | 宁夏 | -1.35 | 28 | 天津 | -0.14 | 14 | 青海 | -1.37 | 29 | 河北 | -0.17 | 15 | 黑龙江 | -1.58 | 30 |
|