R语言做主成分分析在我国城镇居民家庭平均每人全年消费性支出分析中的应用

统计数据建模 课程论文

题 目: R语言做主成分分析在我国城镇居民家
庭平均每人全年消费性支出分析中的应用

姓 名:
学 号:
班 级:
授课教师:
完成时间: 2020年07月07日

摘 要

居民消费支出是指城乡居民个人和家庭用于生活消费以及集体用于个人消费的全部支出。包括购买商品支出以及享受文化服务和生活服务等非商品支出。其形式是通过居民平均每人全年消费支出指标来综合反映居民生活消费水平,我们用主成分分析降维的思想来解决这一问题,将居民消费支出中错综复杂的多个变量化为少数几个主成分,而这些主成分保留了原始变量中绝大部分信息,通常表示为原始变量的线性组合。通过主成分分析,能够有效利用大量统计数据进行定量分析,揭示变量间的内在关系,得到一些对事物特征及其发展规律的深层次的启发。

关键词:居民消费支出;主成分分析;消费水平

Abstract

Residents’ consumption expenditure refers to the total expenditure of urban and rural residents’ individual and family consumption and collective consumption. It includes the expenditure on purchasing goods and non commodity expenditure on enjoying cultural services and living services. The form is to comprehensively reflect the living consumption level of residents through the annual consumption expenditure index of average per capita of residents. We use the idea of dimension reduction of principal component analysis to solve this problem. We transform the complex variables into a few principal components. These principal components retain most of the information of the original variables and are usually expressed as linear groups of the original variables Together. Through principal component analysis, we can effectively use a large number of statistical data for quantitative analysis, reveal the internal relationship between variables, and get some deep-seated Enlightenment on the characteristics and development law of things.

key word:Consumer spending、principal component analysis、Consumption level

目 录

摘 要 I
Abstract II
目 录 III
1 引言 4
1.1选题背景 4
1.2主成分分析简介 4
1.3主成分分析注意事项 5
2 主成分分析步骤 5
2.1主成分的计算步骤 5
2.2主成分的分析过 5
3 主成分分析 6
3.1数据准备 6
3.2分析过程 7
3.2.1计算相关矩阵 7
3.2.2求相关矩阵的特征根和主成分负荷 7
3.3.3求主成分载荷 8
3.3.4确定主成分 8
3.3.5主成分得分 9
3.3.6主成分排名 10
3.3.7主成分作图 10
3.3分析结果 11
参考文献: 12

1 引言
1.1选题背景

城镇居民家庭人均消费支出是城镇居民家庭人均用于日常生活的全部支出。包括购买实物支出和各种服务性支出。消费支出按商品或服务的用途可以分成:食品、烟酒及用品、衣着、家庭设备用品及服务、医疗保健及个人用品、交通和通信、娱乐教育文化服务、居住8大类,不包括罚没、丢失款和缴纳的各种税款(如个人所得税、牌照税、房产税等),也不包括个体劳动者生产经营过程中发生的各项费用。 [1]
农村居民家庭人均纯收入是农村常住居民家庭总收入中,扣除从事生产和非生产经营费用支出、缴纳税款和上交承包集体任务金额以后剩余的,可直接用于进行生产性、非生产性建设投资、生活消费和积蓄的人均收入。包括从事生产性和非生产性的经营收入,取自在外人口寄回、带回和国家财政救济、各种补贴等非经营性收入。包括货币收人和自产自用的实物收入两部分。但不包括向银行、信用社和亲友借款等借贷性的收入。

1.2主成分分析简介

1846年,Bracais提出的旋转多元正态椭球到“主坐标”上,使得新变量之间相互独立。 皮尔逊(Pearson)(1901)、霍特林(Hotelling)(1933)都对主成分的发展做出了贡献,霍特林的推导模式被视为主成分模型的成熟标志[2]。 主成分分析被广泛应用于区域经济发展评价,服装标准制定,满意度测评,模式识别,图像压缩等许多领域。主成分分析基本思想是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。
主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。
1.3 主成分分析注意事项
(1)主成分分析,可使用样本协方差阵或相关系数矩阵为出发点来进行分析,但大都以相关系数矩阵为主
(2)为使方差达到最大,通常主成分分析是不加以转轴的。
(3)成分的保留:Kaiser(1960)主张放弃特征值小于1的成分,而只有保留特征值大于1的成分。
(4)在实际研究中,如果用不超过三或五个成分就能解释变量的80%,就算令人满意。
(5)使用成分得分后,会使各变量的方差为最大,而且各变量之间会彼此独立正交。
2 主成分分析步骤
2.1主成分的计算步骤
(1)设有n个样品,p个指标,将原始数据标准化,得标准化数据矩阵。
(2)建立变量得相关系数阵:R=〖(r_ij)〗_(p×p)=X^’ X。
(3)求R的特征值λ_1≥λ_2≥⋯≥λ_p>0及相应的单位特征向量。
(4)写出主成分:y_i ̇ =u_i1x_1+u_i2 x_2+⋯+u_ip x_p,这里i=1,2,…,p。
2.2主成分的分析过
(1)将原始数据标准化,以消除变量间在数量级和量纲上的不同。
(2)求标准化数据的相关矩阵。
(3)求相关矩阵的特征值和特征向量。
(4)计算方差贡献率与累积方差贡献率:每个主成分的贡献率代表了原始数据总信息量的百分比。
(5)确定主成分:设c_1,c_2,…,c_p为p个主成分,其中前m个主成分包含的数据信息总量(即其累积方差贡献率)不低于80%时,可取前m个主成分来反映原评价对象。
(6)用原指标的线性组合来计算个主成分得分:以各主成分对原指标的相关系数(即载荷系数)为权,将各主成分表示为原指标的线性组合,而主成分的经济意义则由各线性组合中权数较大的指标的综合意义来确定,即c_j=a_j1 x_1+a_j2 x_2+⋯+a_jp x_p,这里j=1,2,…,m
(7)综合得分:以各主成分的方差贡献率为权,将其线性组合的到综合评价函数。C=λ_1C1+λ2C2+⋯+λmCmλ1+λ2+⋯+λm=i=1mωiCi
(8) 得分排序:利用总得分可以得到得分名词。

3 主成分分析
3.1数据准备

为了研究我国3个省、市、自治区(未包括台湾、香港和澳门)2007年城镇居民生活消费的分布规律,根据调查资料以区域消费类型划分。指标名称如下,原始数据见表3-1。
食品:人均食品支出(元/人)
衣着:人均衣着商品支出(元/人)
设备:人均家庭设备用品及服务支出(元/人)
医疗:人均医疗保健支出(元/人)
交通:人均交通和通信支出(元/人)
教育:人均娱乐教育文化服务支出(元/人)
居住:人均居住支出(元/人)
表3-1 部分地区城镇居民家庭平均每人全年消费性支出
食品 衣着 设备 医疗 交通 教育 居住 杂项
北京 4934.05 1512.88 981.13 1294.07 2328.51 2383.96 1246.19 649.66
天津 4249.31 1024.15 760.56 1163.98 1309.94 1639.83 1417.45 463.64
河北 2789.85 975.94 546.75 833.51 1010.51 895.06 917.19 266.16
山西 2600.37 1064.61 477.74 640.22 1027.99 1054.05 991.77 245.07
内蒙古 2824.89 1396.86 561.71 719.13 1123.82 1245.09 941.79 468.17
辽宁 3560.21 1017.65 439.28 879.08 1033.36 1052.94 1047.04 400.16
吉林 2842.68 1127.09 407.35 854.80 873.88 997.75 1062.46 394.29
黑龙江 2633.18 1021.45 355.67 729.55 746.03 938.21 784.51 310.67
上海 6125.45 1330.05 959.49 857.11 3153.72 2653.67 1412.10 763.80
江苏 3928.71 990.03 707.31 689.37 1303.02 1699.26 1020.09 377.37
浙江 4892.58 1406.20 666.02 859.06 2473.40 2158.32 1168.08 667.52
安徽 3384.38 906.47 465.68 554.44 891.38 1169.99 850.24 309.30
福建 4296.22 940.72 645.40 502.41 1606.90 1426.34 1261.18 375.98
江西 3192.61 915.09 587.40 385.91 732.97 973.38 728.76 294.60
山东 3180.64 1238.34 661.03 708.58 1333.63 1191.18 1027.58 325.64
河南 2707.44 1053.13 549.14 626.55 858.33 936.55 795.39 300.19
湖北 3455.98 1046.62 550.16 525.32 903.02 1120.29 856.97 242.82
湖南 3243.88 1017.59 603.18 668.53 986.89 1285.24 869.59 315.82
广东 5056.68 814.57 853.18 752.52 2966.08 1994.86 1444.91 454.09
广西 3398.09 656.69 491.03 542.07 932.87 1050.04 803.04 277.43
海南 3546.67 452.85 519.99 503.78 1401.89 837.83 819.02 210.85
重庆 3674.28 1171.15 706.77 749.51 1118.79 1237.35 968.45 264.01
四川 3580.14 949.74 562.02 511.78 1074.91 1031.81 690.27 291.32
贵州 3122.46 910.30 463.56 354.52 895.04 1035.96 718.65 258.21
云南 3562.33 859.65 280.62 631.70 1034.71 705.51 673.07 174.23
西藏 3836.51 880.10 271.29 272.81 866.33 441.02 628.35 335.66
陕西 3063.69 910.29 513.08 678.38 866.76 1230.74 831.27 332.84
甘肃 2824.42 939.89 505.16 564.25 861.47 1058.66 768.28 353.65
青海 2803.45 898.54 484.71 613.24 785.27 953.87 641.93 331.38
宁夏 2760.74 994.47 480.84 645.98 859.04 863.36 910.68 302.17
新疆 2760.69 1183.69 475.23 598.78 890.30 896.79 736.99 331.80
数据来源:《中国统计年鉴》

3.2分析过程
3.2.1计算相关矩阵

将表3-1中数据拷贝到RStudio软件中,然后运行下列代码。

> X=read.table("clipboard",header=T)
> cor(X)

结果:

在这里插入图片描述

主成分分析,使用样本协方差阵或相关系数矩阵都可以进行分析,大多数以相关系数矩阵为主。

3.2.2求相关矩阵的特征根和主成分负荷

> pr<-princomp(X,cor=T);pr

结果:
在这里插入图片描述

> summary(pr)
结果:

在这里插入图片描述

3.3.3求主成分载荷

> pr$loadings

结果:
在这里插入图片描述

由主成分分析载荷矩阵可以看出,主成分Comp.1在人均家庭设备用品及服务支出、人均交通和通信支出、人均娱乐教育文化服务支出、人均居住支出、人均杂项商品和服务支出上的载荷值都很大,可视为非必须消费品主成分;Comp.2在人均食品支出、人均衣着商品支出、人均医疗保健支出上有较大的载荷,可视为反映日常必须消费的主成分。

3.3.4确定主成分

> screeplot(pr,type="lines")

结果:
在这里插入图片描述

按照累计方差贡献率大于80%的原则,选定了两个主成分,其累积方差贡献率为80.7%,从图中可以看到,取2个主成分比较合适。

3.3.5主成分得分

> pr$scores

结果:
在这里插入图片描述

3.3.6主成分排名

>library(mvstats)
>princomp.rank(pr,m=2,plot=T)

结果:
在这里插入图片描述

有了各个主成分的解释,结合各个省、市、自治区在两个主成分上的得分和综合得分,就可以对各省、市、自治区的综合人均消费水平进行评价了。

3.3.7主成分作图

在这里插入图片描述

第一主成分为横轴代表非必须消费支出,第二主成分为纵轴代表必须消费支出,绘制各省、市、自治区的成分图。

3.3分析结果

由主成分分析散点图可以看出,在非必须消费支出中上海、北京、广东、浙江和天津明显高于其他其他省、市、自治区,这就是说就以设备、交通、教育、居住、杂项等为主的非日常必需消费而言,上海、北京的消费水平远远高于其他省、市、自治区,侧面可以反映其人们生活质量高于其他省、市、自治区;而在必须消费支出中北京、内蒙古和吉林相对高于其他其他省、市、自治区,可见这些地区人们用于衣着和医疗方面的消费支出不小,反而广东海南相对比较底,可能受气候的影响,人们对衣着需求比较低。
从散点图总的来看,绝大多数省、市、自治区聚集在一个小的区域,说明这些省、市、自治区消费水平差不多,只有上海、北京、广东、浙江、天津这5个省、市分散在右上方,江西、贵州、黑龙江这三省分散在左下方,可知北京、上海、广东、浙江、天津这5个省、市的综合人均消费水平居于全国水平前列,江西、贵州、黑龙江的综合人均消费水平居于全国水平之末。由于北京、上海、广东、浙江、天津这5个省、市经济发展水平较高,而西藏、云南、海南和贵州较为贫困,可见我国各地区城镇的人均消费水平主要是由经济发展水平决定的,经济发展水平较高的省、市、自治区,其城镇人均消费水平也相对较高,经济较落后的地区,其城镇人均消费水平也相对较低。

参考文献:
[1] 陆雄文.管理学大辞典:上海辞书出版社,2013年

  • 23
    点赞
  • 184
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

让头发掉下来

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值