基于多模态成像遗传学数据来预测帕金森病相关基因和大脑区域的新型CERNNE方法

系列文章目录

基于聚类演化随机森林的阿尔兹海默症的多模态数据分析



前言

这几天在看一篇论文,想和大家分享一下。

阅览文章之前记得一键三联哦,做文章不容易,十分感谢大家的鼓励。

这里我只是用自己的话简单概括了文章的大致主体意思,由于这篇论文没有代码,所以我没办法复现。
主要还是学习方法和思想,如果想看原文,请移步网站,支持作者的创作成果。本博客全是基于自己的理解创作的,所以有大佬能够指出本博客的错误,在下定当万分感谢。

这篇文章来自Medical Image Analysis.

A novel CERNNE approach for predicting Parkinson’s Disease-associated genes and brain regions based on multimodal imaging genetics data[1]

Xia-an Bi, Xi Hu, Yiming Xie, Hao Wu

PII: S1361-8415(20)30194-8
DOI: https://doi.org/10.1016/j.media.2020.101830
Reference: MEDIMA 101830

T o appear in: Medical Image Analysis
Received date: 26 April 2020
Revised date: 24 July 2020
Accepted date: 1 September 2020


一、提纲

1.概述

  1. 设计了一种实用的多峰特征融合方法,以检测大脑区域和基因之间的序列信息的相关性,并提取出更多可识别的特征。

  2. 提出了一种创新的神经网络集成模型CERNNE,以分析样本的融合特征。该方法使用聚类演化策略来优化集成学习者,以获得更好的分类结果。

  3. 本文研究提供了检测PD相关基因和大脑区域的综合框架。

2.学术简称

本博客可能出现的名词缩写

PD 帕金森症
GERNNE 神经网络集成模型
AAL 解剖自动标记
ROI 感兴趣模块
ANN 人工神经网络
BPNN 反向传播神经网络
PNN 概率神经网络
ElmanNN 艾尔曼神经网络
LVQNN 学习矢量量化中心网络
Competitive NN 竞争性神经网络
FMRI 功能磁共振成像
SNP

二、背景与问题

1.背景

  1. FMRI单独用于识别PD,很少考虑融合数据。
  2. 大多数使用成像和遗传数据对PD进行的仅关注过程本身,忽略了对综合框架的分析。
  3. 人工神经网络在PD多峰研究中还有很大的潜力。

2.问题

  • 如何将fMRI数据与基因数据融合
  • 怎样设计基于机器学习的PD多模式融合框架设计

三、目标与步骤

1.目标

  • 将fMRI数据与基因数据融合是全面探讨PD的致病因素的可行方法
  • 挖掘ANN在PD多峰融合研究中的潜力
  • 基于机器学习的PD多模式融合框架的设计

2.步骤

  1. 测试多种相关分析方法,并选择了提取基因与大脑区域之间关联的最佳方法作为多峰数据的融合特征。
  2. 提出了一种改进的聚类演化随机神经网络集成(CERNNE)神经网络模型。引入层次聚类的思想,以进行自适应动态优化。
  3. 以CERNNE为核心,构建PD的多模态融合框架,以实现特征构造,患者识别和病因预测的多任务分析。

四、方法与创新点


此图片来自论文。
下面是我自己的理解

PD的多峰数据融合分析框架,该框架实现特征构建,患者识别和病变检测的功能。该框架由以下四个部分组成,包括多模式数据预处理,融合功能构建,样本分类和与PD相关的基因以及大脑区域预测。

  1. 用AAL模板预处理静态fMRI图像得到ROI,提取ROI功能时间时间序列。
  2. 与此同时,对SNP重组,得到基因序列
  3. 经过相关分析方法,得到融合特征矩阵
  4. 对GERNNE模型进行优化
  5. 提取到高频特征并可视化

接下来请听我娓娓道来

1.多峰数据集和预处理

所有功能磁共振成像数据均由DPARSF软件进行预处理。
SNP的预处理由PLINK软件执行

2.提取融合特征

  1. 通过AAL模板将预处理的fMRI图像分割为90个感兴趣区域(ROI),提取每个ROI的功能时间序列,其长度为 fl。
  2. 我们在NCBI和Ensemble网站上查询其参考SNP(rs)编号,以确定它们所属的基因。然后我们根据它们对应的基因对SNP进行分组,并根据基因中SNP的位置排列SNP组。我们选择SNP数量大于作为候选基因并离散地重新编码基因。这四个碱基A,T,C,G 根据PLINK(1.07)文档(Purcell,2012),将SNP中的SNP分别重新编码为1、2、3和4 ,从而获得基因组的数字序列。最终,ROI的时间序列长度通常大于基因序列长度。
  3. 截取ROI的时间序列长度等于基因序列长度从fMRI数据获得90个大脑区域的功能时间序列,并从遗传数据中提取23595个SNP。为了确保融合特征构建的有效性,我们控制了ROI和SNP序列的长度,以便将所有序列转换为相同的长度。详细地,我们保留了45个SNP组,其中包含40个以上的SNP,并离散化了每个SNP组的前40个SNP,以获得长度为80的基因数字序列。大脑区域的功能时间序列也被调整为80,我们选择的上述长度阈值是通过重复实验确定的,每个样本最终成为一组4050维融合特征。
  4. 通过Pearson相关分析方法,计算ROI和基因序列之间的关联作为融合特征。

3.pearson相关分析方法

Pearson相关系数

最常用的相关系数,又称积差相关系数,取值-1到1,绝对值越大,说明相关性越强。该系数的计算和检验为参数方法,适用条件如下: (适合做连续变量的相关性分析)

(1)两变量呈直线相关关系,如果是曲线相关可能不准确。

(2)极端值会对结果造成较大的影响

(3)两变量符合双变量联合正态分布。

在这里插入图片描述
Wr代表ROI的功能时间序列,Ss是基因序列,l代表每个ROI或者基因的长度

4.GERNNE

简化版叙述

  1. 随机抽30%为测试样本,这其中7:3分为训练,验证

  2. 从融合特征中随机选择作为分类器的输入特征

  3. 构造单个分类器,Z次,Z个。

  4. 对分类器进行聚类学习,相似性的衡量标准DM在这里插入图片描述
    假设两个分类器ANN1和ANN2
    Z00:两个分类器都识别错误的样本数量
    Z01:只有ANN2识别错误的样本数量
    Z10:只有ANN1识别错误的样本数量
    Z11:ANN1和ANN2都是别正确的样本数量

  5. 构造相似度矩阵Matrixs
    在这里插入图片描述
    这里DM(z,1)表示ANNZ与ANN1分类器之间的差异度
    相似度越高,DM越小

  6. 聚类演化
    保留集群中具有最佳性能的基本分类器
    在分类器集群中留下最终达到演化时间所设阈值的分类器
    在这里插入图片描述
    ANNensemble表示该W下的所保留的基础分类器的数量
    W表示对应的整体学习器峰值性能的演化时间
    Z表示初始分类器的数量
    cl表示迭代步长,也就是每次W下优化掉的分类器的个数

  7. 最终模型的投票决策
    也就是如何在最佳分类器集群中得到最终的结果。
    这里很简单,平均值,每个分类器享有同等的投票权。
    结果集:在这里插入图片描述
    等式计算分类结果

在这里插入图片描述
最大值的标签
在这里插入图片描述
这里x为测试样本,fk(x)表示第k个分类器的分类结果。
I(∗)为指示函数,如果第i个分类器预测测试样本x属于A类,则I(fi(X)=A)的值为1,否则为0。最大值的标签是未分类样本的最终类别

下面附上原论文中的流程表
在这里插入图片描述

五、参数优化以及最可识别特征

1.最可识别特征

输入特征对分类器的分类影响很大,所以如何提取最佳特征是一件非常重要的事。

  1. 对重复出现的不同融合特征,在这其中选取高频特征
  2. 反向序列搜索算法,采取e高频降序搜索
  3. 单独分析,对包含在融合特征中大脑区域和基因做单个分量提取并分别统计出现的频率。

在对最佳CERNNE的集成性能进行了多次测试之后,平均分类精度为88.6%
第一阶段,我们计算了最佳CERNNE模型中基本分类器中输入特征的频率,并为下一阶段的特征提取了400个高频特征。分析。通过上述操作,可以将最容易识别的特征的搜索范围缩小到400维。
第二阶段400个高频特征被分为融合特征的几个子集。具体来说,第一个特征子集由前70个高频特征组成。然后,我们按照频率递减的方式逐渐增加子集中特征的数量,步长为5,直到子集中包含所有400个高频特征。
在这里插入图片描述

2.参数优化

  1. 分类器类型,演化数,ANN数量
  2. 类型BPNN,PNN,ElmanNN,LVQNN,CompetitiveNN
  3. 数量K,
  4. 采用网格搜索最佳参数(分类器的个数[c,d])聚类演化

六、其他参数设置

具体而言,将BP NN,Elman NN和LVQ NN的隐藏层数设置为5,将其他网络的参数设置为MATLAB平台的默认参数。此外,所有神经网络基础分类器的迭代训练数量为300。对于任何类型的神经网络集合,我们将其基础分类器的训练样本数量和随机输入特征分别设置为50和64,并将初始集成学习器中的基本分类器设置为500。

七、局限性与结论

  1. 局限性
    实验数据少
    模型性能还有提升空间

  2. 结论
    本文试图设计一种实用的多峰融合分析框架。主要贡献包括三个部分。通过相关性分析检测基因与大脑区域之间的相互作用,并根据多峰信息互补的优势,构建具有更多识别能力的融合特征。本文提出了一种新的集成学习器来分析融合特征,实现了对PD患者的识别准确率达到88.57%。通过搜索对于分类有意义的特征,可以检测到PD在基因和脑功能图像方面的致病因素

总结

该论文还有一些可视化数据和方法的对比部分我没有写出来,不过总体内容基本上都有。没有数据,没有代码,也算是了解学习一下。

[1]Xia-an Bi, Xi Hu, Yiming Xie, Hao Wu, A novel CERNNE approach for pre-dicting Parkinson’s Disease-associated genes and brain regions based on multimodal imaging genet-ics data, Medical Image Analysis (2020),
doi: https://doi.org/10.1016/j.media.2020.101830

  • 10
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 7
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值