一.概念简述:
主成分分析的思想主要是将高维数据降到低维数据,俗称“降维”。但是,如果你的数据行数小于列数,或者在你的数据中各列数之间本身相关性就不大,那么这时候你会发现使用主成分分析的效果其实不是很好。这个时候,我们可以考虑一下偏最小二乘法判别分析,该方法是结合多元线性回归和主成分分析的优点,在很大程度上解决了上述所说的问题。(建了个群,交流学习哈:553621380。)
也可到楼主自己编写的网站上去查看更多内容,网址:http://www.omicsolution.org/wu-kong-beta-linux/main/
二.代码实现。
比如说我们现在有这样的一批数据,取56个人(正常组:28,病灶组(胰腺癌):28)胰腺组织,做蛋白质组学数据分析。上样,跑质谱,搜库(这些步骤非本节内容,在此省略)。得到最后如下数据:
第一列是鉴定到蛋白质的名字,其他列就是对应样本下的表达量。
1.PCA分析
#读取数据
data
head(data)
#转换成矩阵
datat
row.names(datat)
#PCA分析
pr
summary(pr,loadings=T)
l