![ab2a585f3f77f62333f8c80d6738b143.png](https://img-blog.csdnimg.cn/img_convert/ab2a585f3f77f62333f8c80d6738b143.png)
大家好,我是阿琛。前面,我们介绍了三大经典模型,分别是LASSO模型,随机森林模型和支持向量机模型的构建。然而,在高维度数据不断出现的现在,输入特征的数量呈指数形式迅速增长,形成了所谓的维数灾难。今天,我们将重点讲讲主成分分析,从原始数据集中找出一个更小的,但能最大程度保留原来大部分信息的变量集合。
所谓主成分分析,即Principle Component Analysis (PCA),其实就是寻找主成分的过程,且通常被认为是一种特殊的非监督学习算法,可以对复杂或多变的变量进行处理分析。一般而言,成分可以认为是特征的规范化线性组合。其中,第一主成分是能够最大程度解释数据中方差的特征线性组合,而第二主成分是在方向上与第一主成分垂直的条件下,最大程度解释数据中方差的另一种线性组合。其后的每一个主成分都遵循相同的原则。此外,主成分得分是对于每个主成分和每个观测变量计算而得到的。
下面,我们一起来看下如何进行主成分分析并建立模型。
1.R包的安装与读取
1.R包的安装与读取rm(list = ls()) #清空环境变量 options(stringsAsFactors = F)
###1. R包的安装与读取 if(!require(psych))install.packages("psych") if(!require(ggplot2))install.packages("ggplot2") if(!require(ggpubr))install.packages("ggpubr") if(!require(ROCR))install.packages("ROCR") library(psych)