用spss进行主成分分析

君无戏言。

已于 2023-10-12 22:37:36 修改

阅读量6.5k

点赞数 8

分类专栏：运用spss进行数据处理文章标签：数据挖掘数据分析学习建造者模式

于 2022-05-27 19:12:52 首次发布

本文链接：https://blog.csdn.net/qq_59819866/article/details/125009361

版权

运用spss进行数据处理专栏收录该内容

11 篇文章

订阅专栏

此次同样通过一道例题讲解如何运用spss进行对数据的主成分分析

下表是我国2005年第1、2季度各地区城镇居民家庭收支基本情况的统计数据。根据这些数据进行主成分分析，并依据分析结果对地区城镇居民家庭收支情况进行排序和分类。

地区	平均每户人口（人）	平均每户就业人口（人）	平均每一就业者负担人数（人）	平均每人实际可支配收入（元）	平均每人消费性支出（元）
北京	2.9	1.6	1.8	8845.1	6249.3
天津	2.9	1.4	2	6189.1	4549.1
河北	2.9	1.5	1.9	4582.9	3317.3
山西	3	1.5	2	4359.7	3066.8
内蒙	2.9	1.5	1.9	4712.1	3557.8
辽宁	2.9	1.4	2	4501.2	3530.7
吉林	3	1.5	1.9	4293.7	3271.5
黑龙江	2.8	1.3	2.2	3902.3	2858.7
上海	3	1.6	1.9	9656.5	6623.3
江苏	2.9	1.4	2.1	6371.1	4222.1
浙江	2.8	1.4	1.9	8921.2	6127.5
安徽	3	1.6	1.9	4311.6	3121.4
福建	3.1	1.6	1.9	6471.8	4292.3
江西	2.9	1.5	1.9	4369.7	2945.1
山东	2.9	1.7	1.7	5357.7	3517.6
湖南	3	1.5	2	4558.5	3338.1
湖北	2.9	1.4	2.1	5010.7	3616.4
广东	3.3	1.7	1.9	7828.8	5941.7
广西	3	1.5	2	4876.8	3508.5
海南	3.6	1.6	2.3	4323	2975.4
重庆	3.1	1.6	1.9	5283.8	4187.8
四川	2.9	1.4	2	4333.5	3326.7
贵州	3.1	1.4	2.1	4177.4	3066.3
云南	3	1.3	2.2	4619.8	3415.4
西藏	3.4	1.7	2	4668.8	4467.1
陕西	3	1.5	2	4342.7	3186.6
甘肃	2.9	1.5	1.9	4031.8	3113.2
青海	3	1.3	2.3	3971.8	3070.3
宁夏	2.9	1.3	2.2	4078.3	3133.7
新疆	3	1.5	2.1	4018.4	3015.1

主成分分析

操作步骤：

录入数据：在变量视图将地区变量类型更改为字符串，其他类型为数字，再将题目数据复制粘贴到spss。
数据标准化：

勾选“将标准化值另存为变量”

最后在数据视图得到新的标准化值数据列。

因子分析

将分析变量全部移入变量框，在相关性矩阵框中勾选系数和kmo检验

点击提取，方法选择为主成分，勾选碎石图。

最后点击继续和确定。

运行结果与分析：

KMO 和巴特利特检验
KMO 取样适切性量数。		.377
巴特利特球形度检验	近似卡方	149.179
	自由度	10
	显著性	.000

由KMO 和巴特利特检

由KMO 和巴特利特检验p值小于0.05则表示有显著性，而KMO取样适切性量数。大于0.6比较适合，但其值为0.377所以数据不适合做主成分分析。

相关性矩阵
		Zscore(平均每户人口（人）)	Zscore(平均每户就业人口（人）)	Zscore(平均每一就业者负担人数（人）)	Zscore(平均每人实际可支配收入（元）)	Zscore(平均每人消费性支出（元）)
相关性	Zscore(平均每户人口（人）)	1.000	.530	.244	-.051	.039
	Zscore(平均每户就业人口（人）)	.530	1.000	-.638	.322	.363
	Zscore(平均每一就业者负担人数（人）)	.244	-.638	1.000	-.437	-.425
	Zscore(平均每人实际可支配收入（元）)	-.051	.322	-.437	1.000	.969
	Zscore(平均每人消费性支出（元）)	.039	.363	-.425	.969	1.000

总方差解释
成分	初始特征值			提取载荷平方和
成分	总计	方差百分比	累积 %	总计	方差百分比	累积 %
1	2.605	52.092	52.092	2.605	52.092	52.092
2	1.390	27.794	79.886	1.390	27.794	79.886
3	.937	18.746	98.631
4	.045	.896	99.528
5	.024	.472	100.000
提取方法：主成分分析法。

显示提取的主成分，SPSS默认提取特征值大于1的主成分，本题提取了两个主成分其特征值分别为2.605和1.390。前两个主成分的贡献率分分别为52.092%和27.794%，累计贡献率不足80%,没有基本保留了原来指标的信息，假如其贡献率超过85%，这样就由原来的5个指标转化为2个新指标，起到了降维的作用。碎石图则展示了每组的特征值可以用于验证图表总方差检验的特征值是否造假。

成分矩阵a
	成分
	1	2
Zscore(平均每户人口（人）)	.116	.933
Zscore(平均每户就业人口（人）)	.707	.610
Zscore(平均每一就业者负担人数（人）)	-.737	.137
Zscore(平均每人实际可支配收入（元）)	.874	-.290
Zscore(平均每人消费性支出（元）)	.886	-.209
提取方法：主成分分析法。
a. 提取了 2 个成分。

主成分得分公式为f=w1*x1+w2*x2+…+wn*xn其中wj=为主成分矩阵的值与该成分特征值（2.605和0.390）的开根值，代表权重。每个主成分矩阵的值都要除以该成分特征值的开根值得到主成分公式的系数。

再次输入成分矩阵的系数数据

通过spss转换功能进行计算w1和w2（主成分公式的系数）

最终的到主成分F1和F2的系数w1和w2

所以主成分方程为:

F1=0.072*x1 +0.438*x2-0.457*x3+0.542*x4 +0.549*x5

F2=0.791*x1+0.517*x2 +0.116*x3-0.246*x4-0.177*x5

综合得分为:（其系数来源于两个主成分对总体的贡献度）

F=0.521/（0.521+0.278）*F1+0.278/（0.521+0.278）*F2

（该公式后期修改过以下数据就是错误的）

然后通过spss计算F的具体数值

对最后F值进行排序，便可以对F对应城市进行排序，最终得到如下城市排名：

（F公式后期修改过以下数据仅供参考）

城市	综合得分	排名	城市	综合得分	排名
广东	2.08	1	湖南	-0.17	16
上海	1.7	2	陕西	-0.23	17
北京	1.51	3	山西	-0.25	18
西藏	1.33	4	江西	-0.28	19
福建	0.91	5	甘肃	-0.29	20
山东	0.89	6	江苏	-0.34	21
重庆	0.73	7	新疆	-0.46	22
浙江	0.57	8	贵州	-0.59	23
海南	0.51	9	辽宁	-0.6	24
安徽	0.21	10	湖北	-0.65	25
吉林	-0.07	11	四川	-0.66	26
广西	-0.09	12	云南	-1.06	27
内蒙	-0.1	13	宁夏	-1.35	28
天津	-0.14	14	青海	-1.37	29
河北	-0.17	15	黑龙江	-1.58	30