干货 | 如何进行群体DNA甲基化分析

目前,针对群体的研究基本上还是以重测序为主,基于对遗传多样性丰富的自然群体中的个体进行全基因组重测序,研究物种遗传进化多样性,结合准确的目标性状的表型数据及统计方法进行全基因组关联分析,可对动植物复杂农艺性状进行定位,快速获得影响目标性状表型变异的遗传标记或候选基因。

随着表观遗传技术的发展,越来越多的表观技术也应用到群体的研究上,特别是DNA甲基化测序(比如WGBS),研究者们通过获得群体的DNA甲基化数据后进行种群DMR分析,与重测序数据关联分析、EWAS分析、meQTL分析获得影响目标性状表型变异的表观遗传标记以及候选基因。

我们先回顾一下重测序的分析策略。首先拿到大量样本(不同群体)的测序数据,然后利用FastQC进行原始数据的质控和过滤;得到质控结果后,再将过滤后的数据比对到参考基因组上,并进行排序和去重复等处理,利用BWA比对和samtools软件进行格式转化为bam文件;再利用GATK进行SNP和INDEL检测生成VCF文件;用lumpy得到结构变异(structure variants)的信息以及CNVnator分析得到拷贝数变异(Copy Number Variation,CNV)的VCF结果;利用ANNOVAR对SNP/INDEL、SV以及CNV进行注释;接下来构建进化树,PCA分析以及structure分析;得到群体之间的进化关系信息。LD衰减分析;群体选择分析(Tajima’D分析,Fst分析以及ROD分析);针对有表型数据的,可进行GWAS分析;得出性状与SNP/INDEL之间的关联信息;再通过QTL分析精准定位与目标性状相关的遗传标记或候选基因。

接来下我们看一下群体甲基化的分析流程:

01

群体的选择以及样本个数

参考已发表文献,我们可以发现所用群体以自然群体为主,也有一些自交群体。此外,2021年的一篇Science则是以不同物种的DNA甲基化进行后续分析(参见:动物群体甲基化如何讲故事?)。

图片

表1:不同文献中的群体选择以及样本个数。

02

基因组比对

常见的分析是直接将过滤后的数据比对到参考基因组。在有重测序的数据情况下,文献大部分都是比对过滤snp后的参考基因组。

03

计算每个样本的DNA甲基化水平

比对参考基因组后要计算每个样本的全基因组甲基化水平。计算公式如下:C位点的甲基化水平=100*支持甲基化的reads/(支持甲基化的reads+支持非甲基化的reads)。

图片

甲基化 C 碱基在基因组上的分布包含三种形式(CG,CHG 和 CHH,其中 H 代表 A 或T 或 C 碱基)。利用 cgmaptools[6] 软件(version: 0.1.1)统计各种类型的 C 碱基的甲基化水平的比例分布,在一定程度上反映了特定物种的全基因组DNA甲基化修饰特征,并且可计算不同甲基化位点的数量和比例。

04

DMR分析:可分析高频可变区域以及低频可变区域 

  • 筛选条件:

(1) 判定 C 选定区间,保证至少有 5 个 C 碱基并且所有 C 碱基深度大于 5x,这些区间最长1000bp 长度,两个短于1000bp的选定区域距离不小于 200bp;

(2)根据两个样本的选定区间判定差异DMR区间,阈值为Pvalue小于等于 0.001,DMR 水平大于等于 0.2。

DMR的筛选条件文献也是有不同的,可以根据测序得到的结果进行调整。

针对不同种群可以绘制不同种群的整体甲基化水平、差异DMRvenn图、热图。看不同种群之间是否存在甲基化整体水平的差异,以及DMR区域。DMR在基因不同区域,Exon、Intron、TE、Intergenic情况展示。

图片

图1:A.不同种群的甲基化水平;B.DMR的venn;D.DMR热图。

图片

图2:DMR的数量和长度统计以及DMR在不同元件的分布。

05

DMR注释,GO和KEGG富集分析

DMR 区域中点与基因或基因的 Promoter 区域(TSS 上游 2kb)有交集,认为与该基因有关联;然后,针对关联基因进行GO和KEGG富集分析。

图片

图3:DMR关联基因的GO和KEGG富集分析

06

WGBS和SNP关联分析以及PCA分析

使用SNP计算的成对亲缘关系与基于CG甲基化水平的亲缘关系高度相关(图4B),这表明DNA甲基化的变化可以概括不品种之间的遗传关系。此外,利用CG甲基化变异的主成分分析(PCA)成功地将品种划分为不同的亚群(图4C),目前看到的文献结果与基于SNP的分类一致。

图片

图4:B.通过SNP或mCGS水平计算样本之间亲缘关系;C.基于CG甲基化水平的所有水稻品种主成分分析

07

EWAS分析

GWAS(基因组关联研究)是一种用来找新基因和基因区域的方法,可以帮助我们定位复杂疾病/表型的关键基因。不过GWAS只能在遗传信息层面上解读复杂疾病/表型,无法涉及表观遗传。因此,新的方法出现了,名为表观基因组关联分析(EWAS),EWAS将表观遗传的变异和复杂疾病/表型联系起来,通过研究表观遗传学来解读复杂疾病/表型的原因,找到与疾病/表型相关的表观遗传学变异位点。

  • 7.1 EWAS可以检测受环境因素影响的新的调控机制

EWAS可以将在实验组全基因组范围内检测出的甲基化变异位点与对照进行比较,找出所有甲基化位点的变异频率,同时还可以鉴定新的与疾病/表型的甲基化位点。

  • 7.2 EWAS利用探究DNA序列变异和DNA甲基化之间的关系。

大部分GWAS显著关联位点落在基因组非编码区,其如何通过基因或者通路影响表型很难被阐述,一种可能得解释是,这些易感位点通过调节特定区域的甲基化水平,从而改变个性复杂形状。如果某个位点即对负责形状有影响,又对甲基化水平有影响,那么该位点就很有可能符合上述解释。共定位分析(Collocalization)正是试图找出这些“共定位”位点。共定位分析方法,属于Post-GWAS的一项重要工作,eQTL和mQTL是EWAS常用的共定位方法,旨在GWAS结果的基础上鉴定与表型相关的eQTL和mQTL位点。SMR利用GWAS的summary数据和表达数量性状基因座(eQTL)的数据,采用SMR和HEIDI方法,以测试基因表达水平与感兴趣的复杂性状之间的多效性关联。

目前,主要用到软件EWAS2.0(Xu et al., 2018a)进行分析。EWAS2.0软件可以进行:(i)全表观基因组单标记关联研究;(ii)表观基因组甲基化单倍型(meplotype)关联研究和(iii)表观基因组关联荟萃分析。

对于物理上彼此接近的多个DNA甲基化位点,这些位点之间存在表观等位基因的非随机关联,称之为甲基化不平衡(methylation disequilibrium, MD)。EWAS2.0可以计算MD系数识别MD块,并使用Excoffier等人的最大似然估计方法估计meplotype(染色体上一组特定的外显等位基因)的频率。对于病例/对照数据,EWAS2.0可以扫描整个表观基因组,识别疾病相关的meplotype(计算卡方、p值、奇比和95%保密区间)。EWAS2.0可以扫描整个表观基因组,识别疾病相关meplotype(计算卡方、p值、奇比和95%保密区间)。首先需要进行单个SMP分析后进行meplotype分析,以确定与疾病/表型相关的一些SMP位点的组合。EWAS2.0使用Cochran’s q统计量检验个体研究之间的异质性。

EWAS的可视化结果图和GWAS类似,曼哈顿图、QQ图和LD-Block图。下面是文献的展示结果:

图片

图5:基于SMPs和SNP关联分析的曼哈顿图以及Cis调控SMPs和SNPs在基因表达中的关联结果

图片

图6:(g)曼哈顿图显示Cross1中GATA9的SL/SW比值关联结果。(h)跨GATA9的SMPs之间的连锁不平衡和由单侧排列检验鉴定的显著位点组成的稳定连锁(p < 0.001)。

其中,番茄的研究结果还加入了代谢组的分析结果,展示图如下:

图片

图7:山奈酚3- o -葡萄糖苷的EWAS曼哈顿图。meQTL信号在番茄基因组中的分布。

08

WGCNA分析

DNA甲基化数据也可以构建WGCNA网络。使用WGCNA方法,将具有相似甲基化模式的CpG位点组成共甲基化模块,并用“模块特征基因”来总结这些模块的甲基化特征。

传统上,WGCNA应用于转录组数据,并使用无监督聚类方法将共表达基因分配到模块7。在“DNA Methylation Networks Underlying Mammalian Traits”这项研究中,作者使用WGCNA方法来定义哺乳动物样本中共甲基化CpGs的模块。首先,使用带符号矩阵的软阈值功率(调优值= 12)将邻接矩阵(cpg之间的相关性)转换为无标度网络。将结果转化为拓扑重叠矩阵(TOM)和1-TOM距离度量(不相似度),用于数据的分层聚类。使用动态树切算法对树进行修剪,以分配包含至少30个cpg的模块。基于奇异值分解方法,计算模块特征基因(MEs)为每个模块单个变量所能表示的模型方差的最大量。eutherian网络(Net 1)中的特征基因解释了24-63%(平均= 43%)的特征基因。每个模块中甲基化数据的差异(表S3)。基于特征基因连通性(eigengene connectivity, kME)定义了各模块的hub CpGs。采用多元线性回归模型对不同性状的模特征基因进行关联分析。使用WGCNA包中的matchLabels()函数对两个网络中的模块颜色进行匹配。利用WGCNA R包中的“modulePreservation”R函数,以灵长类动物为参照进行比较,估计各网络的模块保存情况。

图片

总之,群体甲基化分析策略为首先选择合适的群体,然后拿到WGBS数据后比对参考基因组,再进行每个样本甲基化水平,以及不同群体的DMR,然后与重测序数据进行关联分析,PCA分析,以及EWAS分析和meQTL定位,还可以加入WGCNA分析,最终得到表观遗传标记对群体进化/驯化或者人类疾病的影响。

  • 参考文献:

[1]  Haghani A, Li CZ, Robeck TR, et.al DNA methylation networks underlying mammalian traits. Science.PMID: 37561875.

[2] Xu J, Zhao L, et.al  EWAS: epigenome-wide association study software 2.0 PMID: 29566144;

[3] Wang Z, Xia A, Wang Q, Cui Z, Lu M, Ye Y, Wang Y, He Y. Natural polymorphisms in ZMET2 encoding a DNA methyltransferase modulate the number of husk layers in maize. Plant Physiol. 2024 Mar 2:kiae113. doi: 10.1093/plphys/kiae113. Epub ahead of print. PMID: 38431291.

[4] Cao S, Chen K, Lu K, Chen S, Zhang X, Shen C, Zhu S, Niu Y, Fan L, Chen ZJ, Xu J, Song Q. Asymmetric variation in DNA methylation during domestication and de-domestication of rice. Plant Cell. 2023 Sep 1;35(9):3429-3443. doi: 10.1093/plcell/koad160. PMID: 37279583; PMCID: PMC10473196.

[5] Song B, Yu J, Li X, Li J, Fan J, Liu H, Wei W, Zhang L, Gu K, Liu D, Zhao K, Wu J. Increased DNA methylation contributes to the early ripening of pear fruits during domestication and improvement. Genome Biol. 2024 Apr 5;25(1):87. doi: 10.1186/s13059-024-03220-y. PMID: 38581061; PMCID: PMC10996114.

[6] Guo H, Cao P, Wang C, Lai J, Deng Y, Li C, Hao Y, Wu Z, Chen R, Qiang Q, Fernie AR, Yang J, Wang S. Population analysis reveals the roles of DNA methylation in tomato domestication and metabolic diversity. Sci China Life Sci. 2023 Aug;66(8):1888-1902. doi: 10.1007/s11427-022-2299-5. Epub 2023 Mar 23. PMID: 36971992.

[7] Zhou J, Xiao L, Huang R, Song F, Li L, Li P, Fang Y, Lu W, Lv C, Quan M, Zhang D, Du Q. Local diversity of drought resistance and resilience in Populus tomentosa correlates with the variation of DNA methylation. Plant Cell Environ. 2023 Feb;46(2):479-497. doi: 10.1111/pce.14490. Epub 2022 Nov 26. PMID: 36385613.

[8] Shen Y, Zhang J, Liu Y, Liu S, Liu Z, Duan Z, Wang Z, Zhu B, Guo YL, Tian Z. DNA methylation footprints during soybean domestication and improvement. Genome Biol. 2018 Sep 10;19(1):128. doi: 10.1186/s13059-018-1516-z. PMID: 30201012; PMCID: PMC6130073.

[9] Xu J, Chen G, Hermanson PJ, Xu Q, Sun C, Chen W, Kan Q, Li M, Cri

图片

  • 30
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Spark Streaming 和 Flink 都是流处理框架,但在一些方面有所不同。 1. 数据处理模型 Spark Streaming 基于批处理模型,将流数据分成一批批进行处理。而 Flink 则是基于流处理模型,可以实时处理数据流。 2. 窗口处理 Spark Streaming 的窗口处理是基于时间的,即将一段时间内的数据作为一个窗口进行处理。而 Flink 的窗口处理可以基于时间和数据量,可以更加灵活地进行窗口处理。 3. 状态管理 Spark Streaming 的状态管理是基于 RDD 的,需要将状态存储在内存中。而 Flink 的状态管理是基于内存和磁盘的,可以更加灵活地管理状态。 4. 容错性 Flink 的容错性比 Spark Streaming 更加强大,可以在节点故障时快速恢复,而 Spark Streaming 则需要重新计算整个批次的数据。 总的来说,Flink 在流处理方面更加强大和灵活,而 Spark Streaming 则更适合批处理和数据仓库等场景。 ### 回答2: Spark Streaming 和 Flink 都是流处理框架,它们都支持低延迟的流处理和高吞吐量的批处理。但是,它们在处理数据流的方式和性能上有许多不同之处。下面是它们的详细比较: 1. 处理模型 Spark Streaming 采用离散流处理模型(DPM),将长周期的数据流划分为离散的小批量,每个批次的数据被存储在 RDD 中进行处理,因此 Spark Streaming 具有较好的容错性和可靠性。而 Flink 采用连续流处理模型(CPM),能够在其流处理过程中进行事件时间处理和状态管理,因此 Flink 更适合处理需要精确时间戳和状态管理的应用场景。 2. 数据延迟 Spark Streaming 在处理数据流时会有一定的延迟,主要是由于对数据进行缓存和离散处理的原因。而 Flink 的数据延迟比 Spark Streaming 更低,因为 Flink 的数据处理和计算过程是实时进行的,不需要缓存和离散处理。 3. 机器资源和负载均衡 Spark Streaming 采用了 Spark 的机器资源调度和负载均衡机制,它们之间具有相同的容错和资源管理特性。而 Flink 使用 Yarn 和 Mesos 等分布式计算框架进行机器资源调度和负载均衡,因此 Flink 在大规模集群上的性能表现更好。 4. 数据窗口处理 Spark Streaming 提供了滑动、翻转和窗口操作等灵活的数据窗口处理功能,可以使用户更好地控制数据处理的逻辑。而 Flink 也提供了滚动窗口和滑动窗口处理功能,但相对于 Spark Streaming 更加灵活,可以在事件时间和处理时间上进行窗口处理,并且支持增量聚合和全量聚合两种方式。 5. 集成生态系统 Spark Streaming 作为 Apache Spark 的一部分,可以充分利用 Spark 的分布式计算和批处理生态系统,并且支持许多不同类型的数据源,包括Kafka、Flume和HDFS等。而 Flink 提供了完整的流处理生态系统,包括流SQL查询、流机器学习和流图形处理等功能,能够灵活地适应不同的业务场景。 总之,Spark Streaming 和 Flink 都是出色的流处理框架,在不同的场景下都能够发挥出很好的性能。选择哪种框架取决于实际需求和业务场景。 ### 回答3: Spark Streaming和Flink都是流处理引擎,但它们的设计和实现方式有所不同。在下面的对比中,我们将比较这两种流处理引擎的主要特点和差异。 1. 处理模型 Spark Streaming采用离散流处理模型,即将数据按时间间隔分割成一批一批数据进行处理。这种方式可以使得Spark Streaming具有高吞吐量和低延迟,但也会导致数据处理的粒度比较粗,难以应对大量实时事件的高吞吐量。 相比之下,Flink采用连续流处理模型,即数据的处理是连续的、实时的。与Spark Streaming不同,Flink的流处理引擎能够应对各种不同的实时场景。Flink的实时流处理能力更强,因此在某些特定的场景下,它的性能可能比Spark Streaming更好。 2. 窗口计算 Spark Streaming内置了许多的窗口计算支持,如滑动窗口、滚动窗口,但支持的窗口计算的灵活性较低,只适合于一些简单的窗口计算。而Flink的窗口计算支持非常灵活,可以支持任意窗口大小或滑动跨度。 3. 数据库支持 在处理大数据时,存储和读取数据是非常重要的。Spark Streaming通常使用HDFS作为其数据存储底层的系统。而Flink支持许多不同的数据存储形式,包括HDFS,以及许多其他开源和商业的数据存储,如Kafka、Cassandra和Elasticsearch等。 4. 处理性能 Spark Streaming的性能比Flink慢一些,尤其是在特定的情况下,例如在处理高吞吐量的数据时,在某些情况下可能受制于分批处理的架构。Flink通过其流处理模型和不同的调度器和优器来支持更高效的实时数据处理。 5. 生态系统 Spark有着庞大的生态系统,具有成熟的ML库、图处理库、SQL框架等等。而Flink的生态系统相对较小,但它正在不断地发展壮大。 6. 规模性 Spark Streaming适用于规模小且不太复杂的项目。而Flink可扩展性更好,适用于更大、更复杂的项目。Flink也可以处理无限制的数据流。 综上所述,Spark Streaming和Flink都是流处理引擎,它们有各自的优缺点。在选择使用哪一个流处理引擎时,需要根据实际业务场景和需求进行选择。如果你的业务场景较为复杂,需要处理海量数据并且需要比较灵活的窗口计算支持,那么Flink可能是更好的选择;如果你只需要简单的流处理和一些通用的窗口计算,Spark Streaming是更为简单的选择。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值