多元统计分析因子分析何晓群版课后作业

最新推荐文章于 2024-05-22 23:21:56 发布

你好可爱呀萍

最新推荐文章于 2024-05-22 23:21:56 发布

阅读量3.2k

点赞数 4

分类专栏：多元统计分析文章标签： r语言

本文链接：https://blog.csdn.net/apple_62552936/article/details/123587148

版权

多元统计分析专栏收录该内容

4 篇文章 1 订阅

订阅专栏

一、实验目的

因子分析模型是主成分分析的推广。它也是利用降维的思想，从研究原始变量相关矩阵内部的依赖关系出发，把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。将数据整理，找出变量间的相关性，通过因子分析从而对数据进行分析。

二、实验内容

1，区域公用事业的发展是地区综合发展的重要组成部分，是促进社会发展的重要因素。因此，分析评价全国 31 个省、直辖市、自治区在城市公共交通、市政、设施等各方面的建设，把握各地区公用事业的整体发展水平具有重要意义。下面应用因子分析模型，选取反映城市公用事业建设的 12 个指标作为原始变量，对全国各地区公用事业的整体发展水平做分析评价这 12 个指标分别为 X1：城区面积（平方公里)；X2：建成区面积（平方公里)；X3：人均公园绿地面积（平方米)；X4：城市建设用地面积（平方公里)；X5：年末实有道路长度（公里)；X6：年末实有道路面积（万平方米)；X7：城市排水管道长度（公里)；X8：城市道路照明灯（千盏)；X9：年末公共交通车辆运营数(辆)；X10：运营线路总长度（公里)；X11：每万人拥有公共交通车辆（标台)；X12：出租汽车数量（辆)。原始数据来源于 2017 年《中国统计年鉴》。参见表1。

表1 2016年区域公共事业指标数据

地区	x1	x2	x3	x4	x5	x6	x7	x8	x9	x10	x11	x12
北京	16410	1419.7	16.01	1463.8	8086	14316	16901	300.6	27892	20392	24.31	68484
天津	2583.3	1007.9	10.59	961.7	7888	14466	20951	353.1	13655	17932	18.09	31940
河北	6613.4	2056.5	14.31	1944.9	14418	33252	17954	753.1	21479	26077	13.68	53034
山西	2893.3	1157.6	11.86	1129	7671	16705	8169	543.3	8895	13813	9.42	30690
内蒙古	4871.7	1241.6	19.77	1146.9	9728	20808	12971	756.6	8000	16495	10.26	45499
辽宁	15148.1	2798.2	11.33	2718.2	16394	29277	18275	1282.6	22950	26222	12.91	80743
吉林	5111.5	1425.8	13.37	1379.5	10669	17084	8445	527.9	11670	13267	10.26	56413
黑龙江	2735.6	1810.2	11.91	1821.8	12750	19667	10722	646	16939	20256	13.58	64158
上海	6340.5	998.8	7.83	1913.3	5129	10582	19508	559.1	20718	24787	12.7	47271
江苏	15277.6	4299.3	14.79	4367.4	44999	79733	72823	3510.4	41131	62726	16.57	53376
浙江	11311.8	2673.3	13.17	2573.4	21215	41286	40550	1526.3	32551	70040	16.27	37781
安徽	6100.4	2001.7	14.02	1959.7	14154	33100	26388	1015	14605	14785	11.95	39199
福建	4440.9	1469.2	13.08	1365.6	8656	17657	14329	723.3	16238	23563	15.26	21727
江西	2369.3	1371	14.16	1279.3	8977	18936	13326	686.7	8136	14311	8.86	13712
山东	22424.2	4795.5	17.91	4540	40685	83011	56796	1869.8	47419	82149	15.88	61314
河南	4822.8	2544.3	10.43	2424.6	13140	31621	21376	897.5	22955	20840	10.88	46598
湖北	8334.2	2248.9	10.99	2111.8	18622	33293	23922	746.9	20915	18826	12.76	36415
湖南	4373.1	1625.6	10.57	1511.1	12292	22477	13846	697.2	19363	17779	15.13	26173
广东	17086.3	5808.1	17.87	5266.6	38930	71204	56323	2596.8	63670	102707	14.2	68504
广西	5752	1333.8	11.77	1292.6	8585	18555	11480	677.3	9093	13143	9.77	17337
海南	1428.2	321	12.02	302.1	2503	5195	4192	173.7	3080	5866	11.35	6683
重庆	7438.5	1350.7	16.86	1179.6	8498	17776	15553	569.6	12810	14565	10.7	21100
四川	7872.7	2615.6	12.47	2468.5	14835	31352	26486	1189.1	23583	24910	12.9	33394
贵州	3104.8	844.6	14.98	776.9	4022	8208	6060	473.6	6565	8656	11.36	19021
云南	3127.7	1131.3	11.33	1027.2	5995	14768	13133	514.8	11166	20821	13.17	19130
西藏	449.8	145.2	7.84	186.8	1134	1986	1422	60.2	580	1035	6.2	1882
陕西	2334.8	1127.4	12.3	1096.3	6783	15265	8678	653.9	12696	10542	16.01	24458
甘肃	1580.1	870.4	13.94	806	4668	9933	5802	306.9	5233	6429	9.16	23395
青海	688.2	197.4	10.78	176	1019	2059	1744	122.1	2248	3039	14.49	8344
宁夏	2119.2	441.8	18.3	384.1	2214	6578	1626	258.3	3357	5019	13.47	12504
新疆	3034.9	1199.4	12.22	1187	7791	13673	6864	631.5	9250	8429	15.24	32284

三、实验过程

第 1 步：读人数据，进行 KMO 检验和 Bartlett 检验。结果显示该例的数据非常适合做因子分析。

ex6.3<-read.table(file.choose(),head=TRUE,fileEncoding="utf8")##找到文件6.3赋值给ex6.3

dat63<-ex6.3[,-1]##不要数据的第一列赋值给dat63

rownames(dat63)<-ex6.3[,1]##提取ex6.3中的第一列

dat63<-scale(dat63,center=TRUE,scale=TRUE)##将数据标准化

library(psych)##调用这个psych这个函数

psych::KMO(r=dat63)##对dat63进行KMO检验

cortest.bartlett(cor(dat63))##进行Bartlett 检验

##得出下面这些数据

$chisq##卡方分布

[1] 2453.293

$p.value##p值

[1] 0

$df##自由度

[1] 66

第2 步：选择因子个数。方差解释表和碎石图（见图 2）显示，前三个公共因子总的方差贡献率为 90.8％，基本提取了样本所包含的信息；随着公共因子个数大于 3，碎石图中曲线的变化趋势明显趋于平稳，因此确定选择三个公共因子。

###方差解释

fit63_var<-psych::principal(dat63,nfactors=3,rotate='varimax',covar=TRUE)##求出方差

lam63<-fit63_var$values###特征值

cumlam63<-cumsum(lam63)/sum(lam63)##求出比列

VE63<-data.frame(lam63,lam63/sum(lam63),cumlam63)##求出累计贡献率

colnames(VE63)<-c("特征值","比例","累计比例")##行名为这些

Z<-round(VE63,3)##保留三位小数

Write.csv(z)

表 2

	特征值	比例	累计比例
1	8.98	0.748	0.748
2	1.049	0.087	0.836
3	0.866	0.072	0.908
4	0.551	0.046	0.954
5	0.215	0.018	0.972
6	0.155	0.013	0.985
7	0.075	0.006	0.991
8	0.056	0.005	0.996
9	0.032	0.003	0.998
10	0.011	0.001	0.999
11	0.006	0	1
12	0.004	0	1

##碎石图

图1 碎石图

第 3 步：因子载荷和因子得分。为便于解释公共因子的实际意义，旋转载荷矩阵表中给出了进行方差最大化正交旋转后的因子载荷。可以看出，第一个公共因子 F 1主要由 X2建成区面积、X4城市建设用地面积、X5年末实有道路长度、X6年末实有道路面积、X7城市排水管道长度、X8城市道路照明灯、X9年末公共交通车辆运营数、X10运营线路总长度决定，而且各指标对 F1的贡献基本相当。X2，X4是反映城市基础建设的指标，X5，X6，X7，X8是反映城市市政设施建设的指标，X9，X10是反映公共交通建设的指标。因此，F1是相对综合的因子，基本反映了城市公共建设的整体水平。第二个公共因子 F2主要由每万人拥有公共交通车辆决定，主要反映公共交通的建设水平，拥有的公共交通车辆越多,公民的出行越便利。第三个公共因子 F3主要由人均公园绿地面积决定，主要反映城市基础建设的情况。

##因子载荷

load63<-as.matrix.data.frame(fit63_var$loadings)##将其转化为矩阵

rownames(load63)<-colnames(dat63)##确定列名

x<-round(load63,3)##输出表格

write.csv(x,"2.csv")

表3

	V1	V2	V3
x1	0.743	0.5	0.239
x2	0.948	0.21	0.153
x3	0.204	0.096	0.972
x4	0.957	0.24	0.083
x5	0.952	0.178	0.168
x6	0.951	0.15	0.196
x7	0.93	0.217	0.113
x8	0.933	0.093	0.135
x9	0.876	0.413	0.097
x10	0.889	0.248	0.176
x11	0.093	0.922	0.07
x12	0.541	0.592	0.059

c<-round(fit63_var$scores,3)

write.csv(c,"3.csv")

表4

	RC1	RC2	RC3
北京	-1.203	3.851	0.924
天津	-0.651	1.192	-0.926
河北	0.057	0.389	0.301
山西	-0.214	-0.878	-0.347
内蒙古	-0.524	-0.613	2.443
辽宁	0.556	0.962	-0.856
吉林	-0.261	-0.178	0.075
黑龙江	-0.151	0.586	-0.621
上海	-0.005	0.493	-2.013
江苏	2.655	-0.033	0.034
浙江	0.959	0.556	-0.189
安徽	0.232	-0.406	0.254
福建	-0.363	0.282	0.022
江西	-0.117	-1.481	0.515
山东	2.18	0.644	1.31
河南	0.581	-0.407	-1.154
湖北	0.429	-0.059	-0.827
湖南	-0.127	0.346	-0.925
广东	2.744	0.154	0.984
广西	-0.081	-0.997	-0.312
海南	-0.875	-0.701	-0.104
重庆	-0.388	-0.693	1.495
四川	0.543	-0.205	-0.368
贵州	-0.756	-0.582	0.854
云南	-0.381	-0.182	-0.532
西藏	-0.486	-1.854	-1.532
陕西	-0.65	0.504	-0.247
甘肃	-0.601	-1.034	0.467
青海	-1.147	0.095	-0.568
宁夏	-1.32	-0.229	2.121
新疆	-0.638	0.477	-0.276

##图2

plot(fit63_var$scores,pch="o",xlab="第一因子",ylab="第二因子")##横轴为第一因子，纵轴为第二因子

abline(h=1,lty=1)

abline(v=0,lty=1)

text(fit63_var$scores,ex6.3[,1],adj=-0.05)##显示名字

为更加直观地分析各地区公用事业建设的水平，以 F1因子得分为x轴，F2因子得分为y轴画散点图，如图 2 所示。

图2 因子的散点图

四、实验结果

由散点图可知，除北京在因子 F2 上的得分较大外，其他地区在 F2上的得分相差不是特别大，说明北京的公共交通极其便利，在其他地区中上海的公共交通最便利，西藏的公共交通建设最差，很明显，西藏地区的公共交通建设主要受地理因素的影响。在较为综合的因子F1上，得分最高的是广东，说明广东省公用事业的综合发展水平较高，基础设施建设比较全面，但公共交通建设有待进一步加强。F1的得分较高的地区还有江苏、山东、浙江、河南，其中江苏和浙江地区的经济发展水平也较高，说明这些地区的发展相对比较全面，人民的生活质量可以较好地得到保障。另外，F1的得分较低的地区有宁夏、青海、海南、贵州、陕西、新疆。一方面这些地区的经济发展水平相对较低；另一方面这些地区所处的环境相对较差，可能会对公用事业建设产生较大影响。因此，全国各地区若要全面协调发展，国家应加大对西部地区的投资和帮扶力度，促进西部地区的发展。

1.研究目的:

为研究新疆各地、州、市、县总产肉量。我们从《新疆统计年鉴2013》上收集到各地区的总产肉量数据来进行因子分析。具体数据如下:

2.多元变量的选择与数据:

:牛（吨） :马（吨） :骆驼（吨） :猪（吨）山羊（吨） :绵羊（吨） :禽肉（吨） :兔肉（吨）

表5

地区	x1	x2	x3	x4	x5	x6	x7
乌鲁木齐	18613	2084	323	18133	4409	13630	7352
克拉玛依市	504	15	1700	9040	192	562	535
吐鲁番市	3750	50	4300	1725	1454	12785	1210
哈密市	5491	73	66	5223	2402	11956	2244
昌吉市	19362	1068	22	42043	2767	15901	19372
阜康市	10560	478	38	15347	2363	10118	14925
伊宁市	4985	580	0	3676	179	2466	1690
奎屯市	60	24	500	4090	16	142	294
塔城市	5283	1050	400	1396	692	6131	1520
乌苏市	8340	1890	88	13088	3215	9197	1542
阿勒泰市	9645	962	96	504	454	5126	442
博乐市	1938	157	3	3955	216	3002	1177
库尔勒市	2366	2	300	6059	571	4461	6440
阿克苏市	10530	224	4	14264	1858	8805	17036
阿图什市	6210	285	5	580	1324	5396	2000
喀什市	6549	222	6	3600	111	14437	2074
和田市	2548	7899	7	1537	63	5148	4816

三、实验过程

第 1 步：读人数据，进行 KMO 检验和 Bartlett 检验。结果显示该例的数据非常适合做因子分析。

ex6.32<-read.table(file.choose(),head=TRUE,fileEncoding="utf8")##找到文件6.32赋值给ex6.32

dat632<-ex6.32[,-1]##不要数据的第一列赋值给dat632

rownames(dat632)<-ex6.32[,1]##提取ex6.32中的第一列

dat632<-scale(dat632,center=TRUE,scale=TRUE)##将数据标准化

library(psych)##调用这个psych这个函数

psych::KMO(r=dat632)##对dat632进行KMO检验

Kaiser-Meyer-Olkin factor adequacy

Call: psych::KMO(r = dat632)

Overall MSA = 0.76

MSA for each item =

x1 x2 x3 x4 x5 x6 x7

0.76 0.50 0.36 0.78 0.84 0.78 0.78

cortest.bartlett(cor(dat632))##进行Bartlett 检验

##得出下面这些数据

$chisq

[1] 390.463

$p.value

[1] 8.699204e-70

$df

[1] 21

第2 步：选择因子个数。方差解释表和碎石图（见图 3）显示，前三个公共因子总的方差贡献率为 82.8％，基本提取了样本所包含的信息；随着公共因子个数大于 3，碎石图中曲线的变化趋势明显趋于平稳，因此确定选择三个公共因子。

###方差解释

fit632_var<-psych::principal(dat632,nfactors=3,rotate='varimax',covar=TRUE)##求出方差

lam632<-fit632_var$values###特征值

cumlam632<-cumsum(lam632)/sum(lam632)##求出比列

VE632<-data.frame(lam632,lam632/sum(lam632),cumlam632)##求出累计贡献率

colnames(VE632)<-c("特征值","比例","累计比例")

z<-round(VE632,3)

write.csv(z,"1.csv")

表6

	特征值	比例	累计比例
1	3.663	0.523	0.523
2	1.245	0.178	0.701
3	0.890	0.127	0.828
4	0.574	0.082	0.910
5	0.324	0.046	0.957
6	0.174	0.025	0.982
7	0.129	0.018	1.000

plot(lam632,type="o",xlab="因子序号",ylab="特征值")

图3

第 3 步：因子载荷和因子得分。为便于解释公共因子的实际意义，旋转载荷矩阵表中给出了进行方差最大化正交旋转后的因子载荷。可以看出，第一个公共因子 F 1主要由 X1牛、X4猪、X5山羊、X6绵羊决定，而且各指标对 F1的贡献基本相当。说明这些是新疆主要肉产品；第二个公共因子 F2主要由骆驼决定，主要反映该地区主要是沙漠，骆驼在这边易生存。第三个公共因子 F3主要由马决定，主要反映该地区易于饲养马匹情况。

##因子载荷

load632<-as.matrix.data.frame(fit632_var$loadings)##转化为矩阵

rownames(load632)<-colnames(dat632)##确定列名

x<-round(load632,3)

write.csv(x,"2.csv")

表7

	V1	V2	V3
x1	0.918	-0.187	0.041
x2	0.003	-0.120	0.981
x3	-0.060	0.918	-0.137
x4	0.846	-0.269	-0.119
x5	0.861	0.097	0.040
x6	0.841	0.280	0.075
x7	0.760	-0.387	-0.066

c<-round(fit632_var$scores,3)

write.csv(c,"3.csv")

表8

	RC1	RC2	RC3
乌鲁木齐	1.738	0.387	0.779
克拉玛依市	-0.930	0.496	-0.731
吐鲁番市	0.205	3.512	-0.211
哈密市	0.219	0.338	-0.217
昌吉市	2.397	-0.853	-0.321
阜康市	0.913	-0.593	-0.400
伊宁市	-0.827	-0.628	-0.303
奎屯市	-1.206	-0.348	-0.673
塔城市	-0.529	0.050	0.104
乌苏市	0.505	0.182	0.612
阿勒泰市	-0.511	-0.267	0.075
博乐市	-0.935	-0.539	-0.518
库尔勒市	-0.547	-0.443	-0.661
阿克苏市	0.773	-0.863	-0.618
阿图什市	-0.438	-0.240	-0.270
喀什市	-0.092	0.176	-0.165
和田市	-0.735	-0.369	3.519

plot(fit632_var$scores,pch="o",xlab="第一因子",ylab="第二因子")##横轴为第一因子，纵轴为第二因子

abline(h=1,lty=1)

abline(v=0,lty=1)

text(fit632_var$scores,ex6.32[,1],adj=-0.05)

为更加直观地分析各地区公用事业建设的水平，以 F1因子得分为x轴，F2因子得分为y轴画散点图，如图 4所示。

图4

四、实验结果

由散点图可知，除吐鲁番市在因子 F2上的得分较大外，其他地区在 F2上的得分相差不是特别大，说明吐鲁番的养殖牲畜方面是有一些优势的，而在其他地区不适合养殖牲畜。在较为综合的因子F1上，得分最高的是昌吉，说明昌吉在养殖各方面都很突出。F1的得分较高的乌鲁木齐，哈密市，乌苏市，阿克苏市，阜康市。另外，F1的得分较低的地区有克拉玛依市，塔城市，喀什市，奎屯市，伊宁市，阿勒泰市，和田市，阿图什市，库儿勒市，博乐市。一方面这些地区地广人稀，在这边的人特别少，因此养殖业不是特别的发达；因此，政府要鼓励人们养殖发家致富，这些地方不适合种植农作物，适合养殖牲畜，政府也要出台相应的政策来对以下家庭进行扶持。

二、实验内容

按现行统计报表制度，农村居民可支配收入主要由四部分构成，即工资性收人、经营净收人、财产净收入、转移净收入。表 9 列出了 2018 年全国 31 个省、直辖市、自治区农村居民人均可支配收入的数据（数据来源于 2019 年《中国统计年鉴》),试进行对应分析，揭示全国农村居民人均可支配收入的特征以及各省、直辖市、自治区与各收入类型间的关系。

表9

地区	工资性收入	经验净收入	财产净收入	转移净收入
北京	19826.71	2021.743	1876.849	2764.994
天津	13568.08	5334.594	921.5624	3240.988
河北	7454.096	4611.55	298.7112	1666.532
山西	5735.751	3075.233	192.9316	2746.096
内蒙古	2896.641	7180.689	520.3909	3204.841
辽宁	5644.759	6263.842	334.4825	2413.244
吉林	3521.494	7756.244	256.5462	2213.891
黑龙江	3009.1	7053.345	679.0009	3062.208
上海	19503.49	1753.214	1003.204	8114.821
江苏	10221.62	6016.581	767.5393	3839.327
浙江	16898.37	6676.973	784.0952	2942.934
安徽	5057.992	5411.485	256.0305	3270.515
福建	8214.715	6705.625	322.4504	2578.398
江西	6120.982	5271.867	235.4591	2831.583
山东	6550.045	7193.601	428.9783	2124.372
河南	5335.616	4790.713	221.3923	3483.023
湖北	4886.791	6270.848	185.9417	3634.24
湖南	5769.335	4785.686	179.3366	3358.152
广东	8510.675	4432.666	448.9283	3775.468
广西	3691.364	5393.41	241.3528	3108.641
海南	5611.359	5806.061	253.6796	2317.777
重庆	4847.78	4812.921	334.7712	3785.752
四川	4311.011	5117.185	379.4569	3523.724
贵州	4276.231	3226.708	126.2265	2086.94
云南	3259.859	5599.01	187.2304	1721.815
西藏	3037.154	5888.91	427.1768	2096.577
陕西	4620.79	3507.959	196.5996	2887.487
甘肃	2534.719	3823.725	211.5428	2234.144
青海	3047.252	3904.631	463.1075	2978.351
宁夏	4547.847	4638.489	362.7769	2158.53
新疆	2945.188	6623.889	235.1426	2170.281

三、实验过程

rm(list=ls())

ex7.2<-read.table(file.choose(),head=TRUE,fileEncoding="utf8")##读取数据

dat72<-ex7.2[,-1]##不要数据的第一列

rownames(dat72)<-ex7.2[,1]##确定列名

library(FactoMineR)##调用函数

fit_ca<-FactoMineR::CA(dat72,graph=FALSE)

##方差解释

fit_ca$eig

##行主成分轮廓坐标

FF<-fit_ca$row$coord

##列主成分轮廓坐标

GG<-fit_ca$col$coord

##散点图

plot(FF[,1],FF[,2],xlab="轮廓1",ylab="轮廓2",xlin=c(-0.8,0.8),ylin=c(-0.3,0.3))

text(FF[,1],FF[,2],rownames(dat72),adj=1.3)

points(GG[,1]GG[,2],PCH=15)

text(GG[,1],GG[,2],colnames(dat72),adj=-0.2,col="red",cex=1.5)

图5

四、实验结果

从散点图不难看出，我国经济发达地区，如浙江、江苏、天津、福建等，农村居民的收入来源主要以工资性收入和财产净收入为主；青海、重庆、四川等地区多以转移净收入为主要收入来源；西蔽、新疆、云南、吉林等地区以经营净收入为主。从我国目前的经济发展状况来看，大部分农民仍是以工资性收入和家庭经营性收入为主要的收入来源。在经济发达地区，农民外出打工较多，因此以工资性收入为主；在经济不发达地区，大部分农民还是以农业生产为主，因此以家庭经营性收人为主。随着我国社会经济不断发展，这种格局必然会发生一定的变化，转移性收人和财产性收入也会有所表现。
综上所述，对应分析方法较好地揭示了指标与指标、样品与样品、指标与样品之间的内在联系。因此，这种方法能够以较小的代价从原始数据中提取较多的信息。