基因共表达网络分析鉴定拟南芥中性状相关模块

在这里插入图片描述
基于微阵列的高通量技术已广泛应用于分析不同条件下的全基因组基因表达(Aoki et al. 2007)。使用先进的生物信息学工具,研究人员可以找到特定表型的候选基因,推断基因功能和调节(Usadel 等人,2009 年;Li 等人,2015 年;Ficklin 和 Feltus 2011 年),并进行比较共表达分析(Movahedi 等人,2012 年;Ruprecht 等人,2017 年)。作为一个强大的系统,生物可以对生物和非生物胁迫做出反应(Amrine 等人,2015 年;Nishiyama 等人,2018 年)。复杂的生命活动不仅依赖于单个基因,还依赖于动态和复杂的基因网络。为了识别基因网络,可以对转录组数据进行大规模分析。

基因共表达网络 (GCN) 方法已被用于探索拟南芥的全局、时间和空间表达(Schmid 等人,2005 年)。例如,毛 使用来自 AtGenExpress 的 1094 个阵列构建了拟南芥 GCN,并在 382 个已识别模块中的 46 个模块进行了功能注释(毛 等人,2009 年)。此外,Mutwil 使用了 351 个微阵列数据点,鉴定了 181 个基因簇以及 34 个重要簇中的 27 个;然后验证了 6 个预测为必需基因的基因 (Mutwil et al. 2010)。Zheng 使用来自 ATTED-II 的 1388 个微阵列构建 GCN 并预测共表达基因启动子区域的基序(Zheng et al. 2011)。Giorgi 使用 RMA 的修改对 3707 个拟南芥微阵列进行归一化以进行相关性分析(Giorgi 等人,2010 年)。Feltus 通过对 7105 个拟南芥表达样本进行预聚类,最大限度地提高了基因共表达关系(Feltus 等人,2013 年)。还有几种靶向或条件依赖性网络分析(Ficklin 等人,2017 年)。靶向网络分析侧重于基因子集的 GCN,而条件依赖性分析强调在有限数量的生物和非生物条件下的 GCN。例如,Peng 根据基因本体细胞成分信息为拟南芥中的细胞器构建了 GCN(Penga 等人,2016 年)。Wang 在 351 种条件下根据 GCN 在拟南芥中鉴定了 2438 个细胞壁相关基因(Wang et al. 2012b)。Boruc 通过 GCN 和蛋白质-蛋白质相互作用信息的组合在核心细胞周期基因上构建了一个动态相互作用网络(Boruc 等人,2010 年)。Amrine 分析了 272 个微阵列,这些微阵列涉及拟南芥的微生物感染与具有生物营养、半生物营养和坏死生活方式的真菌和细菌病原体,以及构建的核心生物应激反应基因的 GCN(Amrine 等人,2015 年)。Prasch 对拟南芥施加了高温、干旱和病毒暴露的三重胁迫条件,他们揭示了 GCN 信号网络的显着变化(Prasch 和 Sonnewald 2013)。Rasmussen 在 10 种拟南芥生态型中构建了 GCN,使用冷、热、光、盐和鞭毛蛋白处理作为单一胁迫因子及其组合(Rasmussen 等人,2013 年)。Veen 使用 GCN 比较了 8 个拟南芥种质在淹没施加的复合胁迫下,他们揭示了对洪水胁迫的保守、基因型和器官特异性反应的核心(van Veen 等人,2016 年)。此外,科学家的一项主要任务是从模式生物拟南芥中获得的知识转移到作物物种。新兴的比较 GCN 已成为跨物种分析的强大工具。PlaNet 结合了序列和比较 GCN,以帮助识别有价值的作物物种中的同源物(Mutwil 等人,2011 年)。Ficklin 使用 GCN 查找玉米和水稻之间的保守基因模块(Ficklin 和 Feltus 2011),而 Shaik 使用 GCN 识别拟南芥和水稻之间干旱和细菌胁迫反应的常见模块(Shaik 和 Ramakrishna 2013)。最后,研究人员开发了用于基因共表达探索的网络工具。这些工具具有不同的功能,例如,AraNet 通过组合多个数据源来专注于功能注释(Lee et al. 2015);ATTED-II 和 CressExpress 强调基因-基因共表达查询(Aoki et al. 2016);PLANEX 还提供 Cohen 的 Kappa 统计量,用于跨物种共表达基因比较(Yim et al. 2013)。

广泛使用的 GCN 方法之一是加权基因共表达网络分析 (WGCNA) (Zhang 和 Horvath 2005)。它将生物样本中具有相似表达模式的基因分组,这些基因可能是同一通路或生物过程的成员。整个转录组可以简化为几个模块,这使我们能够轻松研究生物系统组件。可以描述模块内基因之间的关系。也可以描述高阶模块网络。这些网络特性可以进一步与其他生物性状相关联,以找到功能基因或模块。然而,只有当足够的扰动(即生物复制被汇集)时,才能检测到转录组中存在的固有基因-基因连接。

在这项研究中,我们将 WGCNA 应用于涵盖拟南芥几种条件的公开可用的微阵列数据。鉴定出具有明确功能注释的共表达基因的基因组规模模块。推断出模块与 traits 的关联。发现了 5 个潜在的热休克反应基因。高阶模块网络分析表明叶绿体基因的独特表达模式。模块保存分析表明,拟南芥和水稻之间存在相似性。

材料和方法

微阵列芯片数据采集和处理

微阵列数据集来自国家生物技术信息中心 (NCBI) 基因表达综合 (GEO) 数据库,拟南芥的平台编号为 GPL198,水稻的平台编号为 GPL2025。这两个平台由使用 Affymetrix 拟南芥 ATH1 基因组阵列和 Affymetrix Rice 基因组阵列 (http://www.affymetrix.com) 的分析实验样品组成。拟南芥阵列包含 22,810 个探针集,水稻阵列包含 57,381 个探针集。简而言之,分析了 931 个拟南芥数据集(含 12,112 个样品)和 191 个水稻数据集(含 2043 个样品)。使用 MAS5 方法(Pepper 等人,2007 年)通过表达控制台 (v1.4.1.46) 分析原始基因芯片数据。检索探针水平的基因表达数据。重复样本由 R (v3.3.1) 复制函数检测。去除重复和破坏的样品后,发现了 11,896 个拟南芥和 2025 个水稻样品。在 R 中分位数归一化之前,使用 normalize.quantiles 函数去除对照探针(Bolstad 等人,2003 年)。根据 NCBI GEO 提供的芯片注释表,将探针集映射到 Entrez 基因 ID。用多个探针组标记的基因按其相对标准偏差 (RSD) 过滤。保留了 RSD 最高的探针组,这保证了有用的信息。为方便起见,我们在整个手稿中将探针集称为相应的基因。最后,包括来自拟南芥的 21,275 个基因和来自水稻的 19,449 个基因用于下游分析。这些数据集的详细信息在补充表 S1-4 中提供。

加权基因共表达网络分析 (WGCNA)

在 Dell PowerEdge R930 服务器上使用 Bioconductor WGCNA 包 (v1.63) 进行网络分析,参数如下:networkType = ‘signed’, softPower = 10 或 14, minModuleSize = 30, deepSplit = 4 (Huber et al. 2015;Langfelder 和 Horvath 2008 年)。简而言之,分别为拟南芥和水稻构建了签名的共表达网络。对于基因表达矩阵中的每个基因,计算成对 Pearson 相关系数,并通过将相关矩阵提高到幂来计算邻接矩阵 (Zhang 和 Horvath 2005)。使用无标度拓扑标准,拟南芥和水稻分别选择了 10 和 14 的幂。然后,邻接矩阵被转换为拓扑重叠 (TO) 网络,它不仅测量两个基因的相关性,还测量它们在加权网络中共享相关性的程度(Zhang 和 Horvath 2005)。然后将 TO 矩阵分层聚类以鉴定高度共表达的基因。最后,通过动态树切割算法鉴定共表达基因模块 (Oldham et al. 2008)。每个模块由模块特征基因 (ME) 通过奇异值分解进行总结,因此每个模块表达谱由其第一个主成分表示 (Zhang 和 Horvath 2005)。因此,ME 解释了模块表达水平的最大变异量,被认为是模块中最具代表性的基因表达。为了构建模块网络并识别模块,相同的过程被应用于上面讨论的结果。参数为 power = 6,minModuleSize = 2。使用 WGCNA 包中的 hclust 函数进行聚类。

模块稳定性被测试为原始连接与随机采样 1000 次的半样本的连接之间的平均相关性。该流程针对每个模块运行。使用以下参数通过 WGCNA modulePreservation 函数分析水稻与拟南芥的模块保存:referenceNetworks = Arabidopsis 和 networkType = “signed”,nPermutations = 100。该分析提供了模块保留的定量统计数据,这提供了一个严格的论点,即模块没有被保留(Langfelder 等人,2011 年)。通过排列,分析提供了一个 Zsummary 值,该值总结了模块被保留的证据,并指示模块的稳健性和可重现性。强保留模块的 Zsummary 阈值为 10。介于 2 和 10 之间的 Zsummary 分数适用于弱到中度保留的模块,< 2 的 Zsummary 分数适用于未保留的模块。

模块的功能注释

使用注释、可视化和集成发现数据库 (DAVID 6.8) (Huang et al. 2009) 和拟南芥 ATH1-121501 基因组阵列基因组的背景列表进行网络模块的基因本体 (GO) 富集。DAVID 不仅提供 GO 的富集结果,还提供京都基因和基因组百科全书 (KEGG) 通路以及 Pfam 基序和染色体富集的信息。术语的过度表示定义为使用 Benjamini 方法对多个测试进行调整的修正 Fisher 精确 P 值。为简单起见,记录了最高有效项。使用位置基因富集分析工具分析在染色体区域内富集的模块化基因 (De Preter et al. 2008)。统计显着性设置为 P 值为 3E-7。使用 Ensembl Genome 浏览器可视化过剩的染色体区域。

对于基因表达变异分析,计算模块中每个基因的基因表达相对标准差,并提供每个模块的平均值。

与水稻转录组数据的比较

总体而言,按照“微阵列数据采集和处理”中所述,从GPL2025平台下的 NCBI GEO 数据库中收集和处理了 1094 个水稻微阵列数据点。拟南芥和水稻之间的直系同源物是通过 EnsemblPlants BioMart 工具下载的。使用 R WGCNA 包对直系同源物进行模块保留分析(R Development Core Team 2013)。根据包教程,还在 R 中进行了基于 KEGG 通路的分析和可视化。

结果

成功构建了拟南芥的基因共表达网络

总共使用 11,896 个拟南芥样品构建无标度基因共表达网络,这是自然生物网络的一种特性,选择 10 的幂(图 1)。1a, b) 的 1 个。如方法中所述,通过动态树切割方法迭代检测分层聚类的基因,以找到稳定的基因簇(图 D)。1c)。相似的簇合并形成 52 个共表达的基因模块(表 1)。通过检查原始连接与根据每个模块的 1000 个采样连接值计算的值之间的相关性来测试模块稳定性(图 D)。1d)。除 M42 外,所有模块的平均连接相关性都大于 0.9(为简单起见,模块表示为 M 加上模块编号,例如 M42)。M42 的组件稳定性最低,而 M2 的组件稳定性最高。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值