数据分析：我国各省家庭消费分析_对各地区居民人均消费支出构成要素差异进行数据挖掘分析-CSDN博客

本文链接：https://blog.csdn.net/qq_45560526/article/details/129646554

1.模型的建立

本文运用数据分析方法对我国各省份不同行业的职工平均工资进行评价分析。我们采用了来自于《中国统计年鉴》2000 年到 2014 年的权威数据，通过聚类分析、因子分析、灰色相关分析预测的方法，分别依据省份和行业对平均工资水平进行了排序，做出对于相关行业和省份的评估，通过引入生活质量系数，将平均工资水平进行相应的处理，制作出有关工作环境的评价体系。通过聚类分析选出中间值作为代表，构造省份与行业的组合，用一个行业和一个省份的组合作为典型来代表一类行业和一类省份的组合，通过将选出的典型点进行灰色相关分析预测的方法预测出在 2022 年各省各行业的平均工资水平，为各行业就业者找到更好的工作环境与更丰厚的收入提供参考。

2 问题概述与简析

2.1 各省份综合平均工资水平的划分：

根据 2010 年到 2014 年的数据，不考虑行业的差异，对每个省份所有行业的平均工资水平求平均值，得出综合平均工资水平，以此来对不同省份的经济产业发展水平进行划分。省份综合平均工资水平越高则说明该省份的综合经济发展水平越好，该省份具备极高的发展前景。

2.2各行业全国平均工资的划分：

根据 2010 年到 2014 年的数据，不考虑省份的差异，对每个行业所有省份的平均工资水平求平均值，得出全国平均工资水平，以此来对不同行业的发展潜力进行划分。行业全国平均工资水平越高则说明该行业的收入回报越高，能够带来更多的收入。

2.3基于因子分析法对各省份的各行业平均工资水平情况做出综合评估

根据 2010 年的数据，对 19 个行业进行因子分析，根据因子分析的结果，再计算每个省份的综合得分，根据综合得分对各省份的各行业平均工资水平进行排名，综合排名越高的省份2010 年的综合平均工资水平就越高。

2.4 各省生活质量系数排名

当谈及工作环境的时候，不得不考虑工资水平的上涨给生活成本带来的上涨，为此我们引入了物价水平的概念：一个社会的物价水平，是由整个社会的平均物价决定，它代表了整个社会物质生产者的共同劳动所得的中间值，所以物价水平不是由个人或个别团体决定，而是整个社会的劳动生产率决定（来源：百度），所以在满足我们假设的前提下，我们取每一省份所有行业工资水平的中间值作为物价水平，根据公式：
生活质量系数=（各行业平均工资水平的平均值-物价水平）/物价水平
来反映该省的生活质量系数。

2.5灰色相关分析预测 2022 年的工资水平

要想做到充分的预测，做好的方法就是将 31 个省份对应的 19 个行业的值全都预测出来，但是这样不但增加的计算的复杂度，而且最终的计算结果会比较分散，有些点会因为特殊的情况而脱离原有的趋势对我们最后的分析造成影响，所以，我们先采取了聚类分析降维的方法将所有行业聚成 4 类，取中位数作为该类的代表点，记为 a1,a2,a3,a4（选择代表点的时候曾经尝试过用因子析，但是因为计算量过于庞大，加之中位数的数据和因子分析的数据差值相对于本题的数量级而言几乎可以忽略不计，故而选择较为简便的中位数法），再将所有的省份聚成 4 类，取中位数作为该类的代表点，记为 b1,b2,b3,b4。以 16 对组合(a1,b1)(a1,b2) (a1,b3) (a1,b4) (a2,b1) (a2,b2) (a2,b3) (a2,b4) (a3,b1) (a3,b2)(a3,b3) (a3,b4) (a4,b1) (a4,b2) (a4,b3) (a4,b4)来反映 16 类数据的情况，通过灰色相关分析根据 2000 年到 2014 年的准确数据进行预测，预测出 2015 年到 2022 年的数据，并通过对预测结果的评估给各行业的就业者提供参考。

3 假设与前提

假定统计平均工资时每个行业的样本数都足够大，不同行业样本数目差异值可以忽略不计。

4 模型变量

x1:“农、林、牧、渔业” x2:采矿业
x3:制造业
x4:“电力、燃气及水的生产和供应业” x5:建筑业
x6:“交通运输、仓储和邮政业” x7:“信息传输、计算机服务和软件业” x8:批发和零售业
x9:住宿和餐饮业
x10:金融业
x11:房地产业
x12:“租赁和商务服务业” x13:“科学研究、技术服务和地质勘查业” x14:“水利、环境和公共设施管理业” x15:“居民服务和其他服务业” x16:教育
x17: “卫生、社会保障和社会福利业” x18:“文化、体育和娱乐业” x19:“公共管理和社会组织”

5 解题过程

5.1 各个省份平均工资水平的划分

5.1.1 聚类分析

聚类分析是对多种属性统计样本进行分类的一种多元统计分析方法。其基本思想是：一般我们认为，所研究的样品或指标之间存在着程度不同的相似性。于是根据一批样品的多个观测指标，具体找出一些能够度量样品或指标之间相似程度的统计量，以这些统计量为划分类型的依据，把一些相似程度较大的样品聚为一类。关系密切的聚为一个小的分类单位，关系疏远的聚为一个大的分类单位，直到把所有样品或指标都聚类完毕，这样就可以形成一个由小到大的分类系统。
（1）聚类过程：
通过 Rstudio 进行 kmeans 聚类分析，先通过由 fviz_nbclust 函数得出最佳分类个数为 4。fviz_nbclust 函数可以通过画出最佳簇数图来确认最佳分组数。
在这里插入图片描述
2010 年聚类结果为：（类的排名由综合平均工资依次由高到低）
第一类：北京，上海（总计 2 个地区）
第二类：天津，江苏，浙江，广东，西藏（总计 5 个地区）
第三类：内蒙古，辽宁，福建，山东，广西，海南，重庆，四川，陕西，青海，宁夏，新疆（总计 12 个地区）
第四类：河北，山西，吉林，黑龙江，安徽，江西，河南，湖北，湖南，贵州，云南，甘肃（总计 12 个地区）

排名
第一类 58058
第二类 39505
第三类 27086
第四类 24600

2011 年聚类结果为：（类的排名由综合平均工资依次由高到低）
第一类：北京，上海（总计 2 个地区）
第二类：天津，江苏，浙江，广东，西藏（总计 5 个地区）
第三类：内蒙古，辽宁，福建，山东，海南，重庆，四川，陕西，青海，宁夏，新疆（总计 11 个地区）
第四类：河北，山西，吉林，黑龙江，安徽，江西，河南，湖北，湖南，广西，贵州，云南甘肃（总计 13 个地区）

排名
第一类 65637
第二类 44446
第三类 33823
第四类 30281

2012 年聚类结果为：（类的排名由综合平均工资依次由高到低）
第一类：北京，上海（总计 2 个地区）
第二类：天津，江苏，浙江，广东（总计 4 个地区）
第三类：内蒙古，辽宁，福建，山东，西藏，重庆，四川，青海，宁夏，新疆（总计 10个地区）
第四类：河北，山西，吉林，黑龙江，安徽，江西，河南，湖北，湖南，广西，陕西，贵州，云南，甘肃（总计 13 个地区）

排名
第一类 75537
第二类 55658
第三类 43865
第四类 36479

2013 年聚类结果为：（类的排名由综合平均工资依次由高到低）
第一类：北京，上海（