最近和同学讨论他们要做的电子医疗系统的时候,聊到单因素分析和主成分分析,一想自己对这方面也不是很懂,就用sas做了一套标准的流程,记录如下:
个人总结:如果遇到多因素分析,想要很多很多个自变量与因变量进行线性回归分析必须进行降维,一种很好的解决方案就是主成分分析。
引言
主成分分析,举了这么个例子:就像你选女人,有身材、相貌两个指标,如果身材、相貌都很突出,那当然很好选择;但如果两个女人,一个身材突出,一个相貌出众,看着都很喜欢,那可如何是好!这个时候通过主成分分析,汇总出一个指标,这个指标可以一定程度上代替原来的身材、相貌,这时就可以排序做出选择了。
这例子当然有很多缺陷,但至少指出了主成分分析的目的之一:减少决策变量数,也就是降维。主成分分析的另一个目的是防范多重共线性。实际问题往往涉及很多变量,但某些变量之间会有一定的相关性,我们希望构造较少的几个互不相关的新指标来代替原始变量,去除多重共线性,减少所需分析的变量,同时尽可能减少这一过程的信息损失。主成分分析正是基于这样的目的而产生的有效方法。
主成分分析流程
1、原始数据标准化。
2、计算标准化变量间的相关系数矩阵。
3、计算相关系数矩阵的特征值和特征向量。
4、计算主成分变量值。
5、统计结果分析,提取所需的主成分。
实例(个人觉得说了再多,其实一个实例就懂了)
下表列出了1999年全国31个省、直辖市和自治区(港、澳、台不在其中)的城镇居民家庭平均每人全年消费性支出的八个主要变量数据,请从八个变量中识别出主成分。
变量说明(随便从网上找的数据)
x1:食品 x2:交通和通讯
x3:衣着 x4:娱乐教育文化服务
x5:家庭设备用品及服务 x6:居住
x7:医疗保健 x8:杂项商品和服务
1.对照省份可用sas做表
data comp;
input name $ x1-x8;
cards;
北京 2959.19 730.79 749.41 513.34 467.87 1141.82 478.42 457.64
天津 2459.77 495.47 697.33 302.87 284.19 735.97 570.84 305.08
河北 1495.63 515.90 362.37 285.32 272.95 540.58 364.91 188.63
山西 1406.33 477.77 290.15 208.57 201.50 414.72 281.84 212.10
内蒙古 1303.97 524.29 254.83 192.17 249.81 463.09 287.87 192.96
辽宁 1730.84 553.90 246.91 279.81 239.18 445.20 330.24 163.86
吉林 1561.86 492.42 200.49 218.36 220.69 459.62 360.48 147.76
黑龙江 1410.11 510.71 211.88 277.11 224.65 376.82 317.61 152.85
上海 3712.31 550.74 893.37 346.93 527.00 1034.98 720.33 462.03
江苏 2207.58 449.37 572.40 211.92 302.09 585.23 429.77 252.54
浙江 2629.16 557.32 689.73 435.69 514.66 795.87 575.76 323.36
安徽 1844.78 430.29 271.28 126.33 250.56 513.18 314.00 151.39
福建 2709.46 428.11 334.12 160.77 405.14 461.67 535.13 232.29
江西 1563.78 303.65 233.81 107.90 209.70 393.99 509.39 160.12
山东 1675.75 613.32 550.71 219.79 272.59 599.43 371.62 211.84
河南 1427.65 431.79 288.55 208.14 217.00 337.76 421.31 165.32
湖北 1783.43 511.88 282.84 201.01 237.60 617.74 523.52 182.52
湖南 1942.23 512.27 401.39 206.06 321.29 697.22 492.60 226.45
广东 3055.17 353.23 564.56 356.27 811.88 873.06 1082.82 420.81
广西 2033.87 300.82 338.65 157.78 329.06 621.74 587.02 218.27
海南 2057.86 186.44 202.72 171.79 329.65 477.17 312.93 279.19
重庆 2303.29 589.99 516.21 236.55 403.92 730.05 438.41 225.80
四川 1974.28 507.76 344.79 203.21 240.24 575.10 430.36 223.46
贵州 1673.82 437.75 461.61 153.32 254.66 445.59 346.11 191.48
云南 2194.25 537.01 369.07 249.54 290.84 561.91 407.70 330.95
西藏 2646.61 839.70 204.44 209.11 379.30 371.04 269.59 389.33
陕西 1472.95 390.89 447.95 259.51 230.61 490.90 469.10 191.34
甘肃 1525.57 472.98 328.90 219.86 206.65 449.69 249.66 228.19
青海 1654.69 437.77 258.78 303.00 244.93 479.53 288.56 236.51
宁夏 1375.46 480.89 273.84 317.32 251.08 424.75 228.73