canoco5主成分分析步骤_纯科研相关:主成分分析的SPSS和matlab实现

一、 aebfa9178a6f4aa9fd54d6bbab1e9ff1.png鸢尾花的花语是信赖。小时候看的日漫彩虹国物语里经常出现鸢尾花,当国王送给心仪的女臣时,说 “这代表了无限的希望和可能性”。也有的说鸢尾花的花语是想念。
二、鸢尾花数据集 08c5b09aaa8ec6baaadc96e2cd79b491.png 著名的遗传学家、统计学家Fisher曾经研究不同种鸢尾花表型遗传的时候,面临着鸢尾花表型的分类问题,很聪明地将花瓣长度、宽度,以及花萼的长度和宽度四种属性进行定量化,然后特征性提取属性特征。然后Fisher建立了现在大数据分析学习中经典的 鸢尾花数据集(Iris dataset) 。关于Fisher老爷子,有两个听闻:第一个是,现在的机器学习统计学方法的50%、以及现在遗传学中的统计方法的90%是建立在当年Fisher的研究工作中;第二个是,Fisher当年的论文晦涩难懂,专门学统计的人要花1天的时间,才能读完他论文的一页。但是,对于传闻,经常会出现误传和夸大,比如这几个数字我可能就记错了。鸢尾花数据集长这样(https://www.bilibili.com/video/BV1CW411F7ki)
% meas是鸢尾花一些特征的检测结果,矩阵大小150*4
% meas每一行对应一个观测结果,整个数据集有150个观测结果
% meas每一列对应鸢尾花的一种特征属性,
% means的4列对应的属性分别是:萼片长度,萼片宽度,花瓣长度,花瓣宽度
%%% 种类标记 species
% species是鸢尾花种类
% setosa 山鸢尾, versicolor 多色鸢尾, virginica 弗吉尼亚鸢尾

三、主成分分析步骤这样的矩阵和我们临床研究时候差不多。当比如有一个研究问题:脑白质高信号模式能否区分出PD认知障碍人群?然后我计算了90个脑区的白质高信号。传统的统计学没法对这么多参数进行一次性组间比较,主成分分析就可以将这么多脑区降维成几个对目标参数有意义的成分,然后就可以按照传统的统计分析方法做。大概分成几步:1,对皮层厚度进行 z转化(目的:使之趋向正态【但是不一定能实现正态】,且消除单位不一致的影响)2. 主成分分析(SPPS-分析-降维-因子),不用选择变量,以90个脑区的白质高信号z值为变量,获得主成分得分, 将主成分得分与你感兴趣的行为学相关或者疾病做差异性分析。3. 观察主成分组成,观察几个指标:①特征值的方差百分比(理解成该主成分对总体的贡献率),②所有特征值累积百分比(理解成所有主成分合起来分类的效果),③成分矩阵(理解成每个脑区白质高信号对该主成分的贡献);还可以再选上成分得分系数( 每个脑区白质高信号与该主成分的相关系数),与成分矩阵的关系大概是变量的成分得分矩阵开方*主成分得分=成分矩阵4. 直观 看一眼分类效果 第2步、第3步、第4步可以根据需要换一下顺序。操作见下链接https://jingyan.baidu.com/article/6181c3e087a97a152ff15357.html自己按照痴呆分组算出了主成分。 57e02e96b517cf2c76a7ee137cb148b9.png
四、结果解读:1. 90个脑区的白质高信号提取出3个主成分,累积贡献率为70.988%,分类效果一般(80%以上算比较满意)。其中第一个主成分贡献率56.7%,第二个是7.25%,第3个6.96——第一个主成分权重比较大。 63f5e46dac4ede313ca107c4bf10fa51.png     2. 与认知评分做线性归回模型,只有主成分3有意义 25bf66dfe7fd704b1bb052c593bfd6bf.png3. 观察主成分3的构成,主要与顶枕叶白质高信号相关性比较强。其实也是比较符合文献研究现状的。 8e84117deb7cb6dc17fb916b00d3044f.png4. 构建分类图,观察主成分分类相关。三个坐标维度就是三个主成分得分。 ddfa0178154f26f297b554f70ef8aa87.png可以看到两组重叠在一起了,分类效果不好。 本次分析结果不太满意。
五、上次被问到 “你用的是哪种主成分?”遇到行家的时候就捉襟见肘了,会后试着查了一下matlab公式。matlab实现主成分分析,基本只要一行代码,用一个PCA的公式,详见https://www.bilibili.com/video/BV1Es411V7dj。感谢代码君传递知识。自己也试着跑了一下matlab,和SPSS是完全一样的。下图是是matlab的分类效果图,条形图是各个主成分单独的分类效果;散点图是主成分两两结合的分类效果,三个主成分对于痴呆的区分效果不好。 56c42e5bf0b85a697d85866060a85533.png
六、主成分分析的方法在文章中很常见比如,这篇Brain文章通过数据挖掘、聚类建立帕金森亚型诊断方法的文章也用到了主成分分析,但是其实从图上看,分类效果一般。 39cd24a493e6e3355c84ce6a8a68dfe6.png 07e3587542a0c6a4e21259431862dbad.png下图是文初提到的鸢尾花数据集的主成分分类效果:第一个主成分就把不同种类鸢尾花很好分开了。 da39fa87339d134bbeb8861b4525362c.png
七、个人觉得,数据挖掘、大数据分析、数据驱动、机器学习等是数据量增大情况下,被开发的工具,但是也代替不了传统统计学,更像是解决传统方法解决不了的问题时可以选用。数据驱动容易产生假阳性(数据多了,比较起来就有多重比较校正的问题),要通过传统统计学再来验证。而且,当数据量不大的时候,你会发现,data mining的方法和传统统计方法做出来的结果是一样、一样、一样的。 数据驱动分析还有一个问题:分析出来的结果有时候没有统计值,或者临床意义不明(黑箱),有时候需要临床解读,或者再在临床验证。 做科研真的会有点“费头发”。
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值