在科学研究中,经常需要从同一个体(或观测单位)上观测多个指标,这些指标从不同方面反映个体的性质。主成分分析方法为无监督机器学习的一种方法,是通过线性降维将多个定量指标转换为少数几个综合指标的一种统计分析方法。
假设对于某个问题的研究涉及到P个指标,分别用Xl,X2….XP,表示,这个指标构成的P维随机向量设为X1-XP,对X进行线性变换,可以通过线性组合的方式形成新的综合变量这里用C表示:新的综合变量和原来变量之间的关系可以用下面的
公式表示:
上式中的线性组合可以是任意的,由不同的线性变换得到的综合变量的统计特征也是不一样的。为了使综合变量可以较好的描述原变量的特征,应该要让(方差尽可能的大,并且Ci之问相互独立.
简单来说就是把多个指标通过空间投影,矩阵运算分析,转换为几个综合指标。既往我们已经介绍了R语言进行主成分分析,今天我们来介绍使用SPSS进行主成分分析,先导入我们的雇员数据
我们先来看看数据,这是一个雇员的情况数据(公众号回复:雇员数据,可以获得数据),有如下10个变量Id(观测号)、Gender(性别)、Bdate( 出 生 日 期)、Educ ( 受 教 育 程 度 ( 年 数))、Jobcat(工作种类)、Salary(目前年薪)、Salbegin(开始受聘时的年薪)、Jobtime(受雇时间)、Prevexp(受
雇以前的工作时间)、Minority(是否少数民族)。
我们取educ、salary、salbegin、jobtime、prevexp来进行主成分分析,首先要对数据进行标准化处理,这样才能较好的比较
点击分析-------描述统计-----描述
在对话框中选入要筛选的变量,然后选择将标准化值另存为变量
这样数据的标准化就完成了,我们得到了5个标准化数据
将数据标准化完成后就可以进行正式分析了
点击分析----降维----因子
把需要的数据选入,描述部分选择KMO和巴特利球形检验
在提取部分选择碎石图
旋转部分选择载荷图
得分部分选择:保存为变量
最后按确定得出结果,KMO和巴特利球形检验部分值要大于0.5才能进行主成分分析
公因子方差部分表示了它的共同度,SPSS提取特征根大于 1的变量的信息,可以看到除了教育部分,其他都提取原始变量差不多90%的信息
总方差解释可以看到,前3个方差贡献率累积已经达到90%了,因此SPSS把它分成3个主成分,
碎石图的分析和R是一样的,可以看到前3个主成分的贡献比较大,具体还是要看总方差解释部分
成分矩阵中,我们可以看到,成分1包含了教育程度,目前薪资,起薪3个指标,成分2只有以前的工作时间这个指标,成分3只有目前的在本公司工作时间的这个指标。
载荷图算是对上表的图示,从空间中区分3个指标
SPSS操作部分基本完成,其还生成了三个主成分预测值的输出数据,可以用于绘图
我们还可以通过生成的数据进一步绘图,我们可以按工作种类进行主成分分析
还可以更改散点颜色和形状
也可以做成这样的
如需绘图部分操作,请公众号回复:代码
嫌麻烦的可以在这里下载:
https://download.csdn.net/download/dege857/77942717
更多精彩文章,请关注公众号:零基础说科研