文献精读【1】——对东亚一种关键森林树木的当地适应和未来气候导致的脆弱性的基因组研究

文献精读【1】——对东亚一种关键森林树木的当地适应和未来气候导致的脆弱性的基因组研究

文章目录


对东亚一种关键森林树木的当地适应和未来气候导致的脆弱性的基因组研究

所属目录:文献汇报

创建时间:2024/7/23

作者:星云<XingYun>

更新时间:2024/7/30

URL:https://blog.csdn.net/2301_78630677/article/details/140570748


前言

在这里插入图片描述

文献的Web of science 地址:
https://webofscience.clarivate.cn/wos/alldb/summary/7b3e8a31-6829-46d6-a1f2-607f09137209-fd6d083b/relevance/1

研究物种:
香杨 Populus koreana|iPlant 植物智——植物物种信息系统

结合ppt版:文献精读【1】&& 补充 ——对于【1】的结合ppt进行的简要汇报

【注:下文使用的AI的中文翻译仅供参考,或许有不准确之处】


Abstract(摘要)

在这里插入图片描述

  • 基因组组装与重测序
    本研究对东亚温带森林中Populus koreana香杨)的24个种群的230个个体进行了染色体规模的基因组组装和重测序

  • 环境变量与基因组数据整合:
    结合群体基因组学和环境数据,识别出与气候适应相关的遗传变异。

  • 适应性非编码变异
    发现了大量的适应性非编码变异,强调了非编码区域在适应性进化中的作用。

  • 环境建模与预测:
    将遗传变异信息用于环境建模,预测物种对气候变化的时空响应。

  • 脆弱性评估与保护策略:
    识别出最易受气候变化影响的种群,为制定保护优先级提供了依据。

  • 森林树木育种应用:
    鉴定出的候选基因和变异可能促进具有特定目标的森林树木育种工作

研究结果强调了整合基因组和环境数据来预测 P.koreana香杨)对未来快速气候变化的适应能力的重要性。同时也为森林保护和可持续管理提供了科学依据。

Introduction(引言)

气候变化预计将成为生物多样性的主要威胁,气候导致了动植物物种的局部灭绝。

在这里插入图片描述

背景

  • 气候变化的威胁:
    全球气候变化正迅速成为生物多样性的重大威胁,已有证据显示气候变化导致的动植物物种局部灭绝事件增多。
  • 物种适应的挑战:
    为了应对环境威胁,物种需要迁移到适宜的地理位置或通过表型可塑性、遗传变异或新突变进行适应。然而,对于许多物种而言,尤其是长生命周期的物种,如森林树木,快速的气候变化使得迁移适应变得困难。
  • 基因组学技术的发展:
    随着基因组学技术的进步,群体基因组数据的生成成本降低,使得科学家能够更有效地研究物种的地方适应性和进化潜能。

为何

基因组数据可以作为一种补充策略,以检查一个目标物种分布范围内的局部适应。尽管在任何特定物种的基因组中可能有数百万个变异,但这些变异中只有一些与气候适应有关。识别与气候相关的遗传变异的过程不仅对解决当地适应的精细尺度模式至关重要,而且有助于对物种如何应对气候变化的更好的理解。

  • 理解适应性机制:
    为了深入了解物种如何在气候变化背景下生存和适应,以及制定有效的保护和管理策略,需要量化物种的进化适应潜能。
  • 预测物种脆弱性:
    通过基因组学手段,可以预测物种在气候变化下的适应性中断和脆弱性,这对于长期生存的树种尤其重要,因为它们的适应周期较长,难以快速响应环境变化。
  • 应对生物多样性损失:
    全球生物多样性正在遭受严重损失,理解物种的适应机制和预测其未来适应性对于减缓生物多样性丧失至关重要。

做啥

首次组装了该物种的从头染色体规模的参考基因组,并进一步对其分布范围内来自24个自然种群的230个个体的基因组进行了重测序。描述了全基因组变异的特征,包括单核苷酸多态性(SNPs)、小插入/缺失(indels)和大结构变异(SVs)。

基于这些基因组数据集,我们的目标是:
(1)推断遗传多样性的空间格局、种群结构和进化历史;
(2)剖析气候适应的基因组基础,研究过去的选择如何在分布范围内塑造适应性等位基因频率的模式;
(3)量化和绘制未来气候变化下的脆弱种群。

Results(结果)

【注:可选择先看完Methods(方法),再来看Results(结果)】

1. Chromosome-scale genome assembly of P. koreana(染色体级的基因组组装)

在这里插入图片描述

最终组装捕获了401.4 Mb的基因组序列,其中N50为6.41 Mb,99.6%(~399.94Mb)固定在19条伪染色体上(图1;表1)
在这里插入图片描述
图1 |此图使用Circos软件以环形布局展示了P. koreana基因组的多种特征及其遗传多样性。从最外层到最内层的轨迹分别表示:
基因密度(a):展示基因在基因组中的分布密度,通常用不同颜色的条带表示不同密度的区域。
转座元件(TE)密度(b):转座元件是基因组中的移动遗传元件,其密度分布反映了基因组的动态性质。
单核苷酸多态性(SNPs)分布(c):SNPs是最常见的遗传变异形式,其分布揭示了种群内的遗传多样性。
插入/缺失(indels)分布(d):indels指基因组序列中的插入或缺失变异,其分布同样反映了种群遗传变异。
结构变异(SVs)分布(e):SVs包括较大的基因组结构变化,如倒位、复制和缺失,对理解种群遗传结构至关重要。
潜在气候适应性SNPs分布(f):通过局部因子混合模型(LFMM)识别的与气候适应性相关的SNPs分布。
潜在气候适应性indels分布(g):同样通过LFMM识别的与气候适应性相关的indels分布。
潜在气候适应性SVs分布(h):通过LFMM识别的与气候适应性相关的SVs分布。

基因组组装和注释的统计数据
在这里插入图片描述

补充:
Circos是一款用于可视化复杂数据集,特别是生物信息学中基因组数据的软件包。它以环形布局的方式展示数据,非常适合用来呈现基因组的结构和关系,如染色体结构、基因位置、序列比对、遗传变异和基因表达等。

通过Circos的可视化,可以直观地理解基因组的复杂结构和遗传多样性,以及与气候适应性相关的遗传变异的分布,为后续的进化生物学、生态遗传学和保护遗传学研究提供了丰富的信息。

潜在因素混合模型:LFMM—— R包lfmm

2. Population structure, genetic diversity, and demographic history(群体结构、遗传多样性和群体历史分析)

在这里插入图片描述
研究者对东北中国香杨P. koreana的230个个体进行了全基因组重测序,发现了大量的遗传变异。通过分析,他们发现种群结构大致分为三个集群,南部和北部群体间存在轻度遗传分化,可能在末次冰盛期后不久开始分化。此外,南部群体显示出轻微的种群扩张,而北部群体则经历着种群下降,这反映了不同地区的不同种群历史。

介绍了针对P. koreana种群的基因组学分析,旨在揭示其群体结构、地理分布、隔离模式以及环境适应性变异的分布。在这里插入图片描述图2|群体基因组分析:
@基于模型的群体归属分析(a)
使用ADMixTURE软件,基于K=2到3的不同祖先成分模型,分析群体的遗传结构。每种颜色段的高度代表个体基因组中来自推断祖先血统的比例
@地理分布与祖先成分(b)
显示了24个自然种群的地理分布,其中颜色代表由ADMixTURE推断的祖先成分(当K=3时)。黑色星号标记了用于基因组组装的个体的位置。插图展示了由生态位模型(ENMs)预测的P. koreana当前的地理分布围。
@隔离距离分析(c)
对276个个体进行了基于中性变异(蓝色点和黑线)和适应性变异(红色点和红线)的隔离距离分析(Mantel测试,双侧)。线性回归阴影表示95%的置信区间,揭示了地理距离对遗传隔离的影响。
@隔离环境分析(d)
对276个个体进行了基于中性变异和适应性变异的隔离环境分析(部分Mantel测试,双侧,控制地理距离的影响)。同样,线性回归阴影表示95%的置信区间,这有助于理解环境因素如何塑造种群的遗传结构。

图2详细分析了P. koreana的群体基因组特征。通过ADIXTURE模型分析,可视化了不同祖先血统在各个体基因组中的贡献比例,揭示了种群的遗传结构。
地理分布图显示了不同祖先成分的空间分布,以及用于基因组组装的特定个体的位置。
隔离-距离分析和隔离-环境分析分别探讨了中性和适应性变异在地理距离和环境因素上的关联性,揭示了种群遗传结构与环境条件之间的关系。这些分析有助于理解P. koreana进化历史和适应性进化过程。

在这里插入图片描述

补充:

Admixture使用说明文档cookbook

群体遗传学—admixture软件快速群体分群

3. Identification of genomic variants associated with local climate adaptation(识别与当地气候适应相关的基因组变异)

在这里插入图片描述

研究方法:

  • 高质量基因组与高深度测序:利用香杨(P. koreana)的高质量参考基因组和高深度重测序数据,全面检测SNPs、indels和SVs,揭示与环境适应相关的遗传变异。
  • 环境关联分析:采用LFMM和RDA两种互补方法,检测19个环境变量与遗传变异的关联,识别出数千个与环境显著相关的变异,涉及数百个基因。
  • 适应性变异分布:这些变异广泛分布在基因组中,未集中在特定区域,且更多与降水相关变量而非温度相关变量关联。
  • 适应性变异特征:大部分适应性变异是非编码区域的,特别是在基因的5’ UTR和转座元件中,提示调控元件在环境适应中起关键作用。
  • 选择压力分析:适应性变异的FST值较高,表明空间选择压力驱动种群分化;但iHS分析显示,与随机SNPs相比,它们没有更强的正向选择信号,提示适应性变化可能由多基因选择驱动。

本研究通过综合分析遗传变异与环境因素,揭示了P. koreana适应本地气候的遗传基础,强调了调控元件在环境适应中的重要性,以及多基因选择在塑造适应性变异中的作用。这些发现为理解植物如何适应环境提供了深入见解。

补充:

群体适应性分析——选择信号
基于单体型haplotypes的群体选择信号的检测——EHH & iHS

4. Geographic distribution of the variants in the genes with local adaptation(具有局部适应性的基因变异的地理分布)

在这里插入图片描述

主要发现:

  • 环境适应相关基因:研究确认了一系列之前报道过的与气候适应相关的基因存在变异,这些变异与特定环境变量紧密关联,尽管未检测到显著的功能富集。

  • 降水适应的基因变异:特别地,CRL1基因的变异与最湿润月的降水量显著相关,其T等位基因在降水丰富的东南部地区占主导,而C等位基因则在降水量较低的地区固定。进一步的功能分析表明,携带T等位基因的个体可能对水淹有更高的耐受性。

  • 温度适应的基因变异:同时,研究也鉴定了与温度适应相关的基因,如Pokor17228,编码热休克蛋白,与最热月份的最高温度相关。G等位基因在温度较高的地区更常见,且携带GG基因型的个体在热应力下表现出更高的基因表达,指示该基因可能参与热应力耐受性。

  • 选择压力与适应模式
    多基因适应模式:研究区域内的高连锁不平衡度(LD)和缺乏近期强选择的信号,加上EHH分析结果,支持了多基因适应模式,即多个基因共同参与环境适应过程。

结论与展望:

  • 适应性变异的地理分布:研究揭示了与降水和温度适应相关的基因变异在地理上的分布模式,以及这些变异如何影响个体对极端气候条件的响应。

  • 未来气候变化的预测:对这些基因变异及其功能的深入了解,为预测物种如何应对未来气候变化提供了宝贵的遗传学信息,强调了多基因适应机制在物种适应性进化中的重要角色。

本图详细展示了与地方环境适应性相关的基因位点的全基因组筛选结果,特别聚焦于与“最热月份最高温度”(BIO5)和“最湿月份降水量”(BIO13)相关的变异位点。在这里插入图片描述
图3 | 全基因组筛选与地方环境适应相关的基因位点
曼哈顿图(a):
上方红色面板展示了与BIO5相关的变异位点,下方蓝色面板则展示了与BIO13相关的变异位点。虚线水平线代表显著性阈值(FDR校正,调整后的P值=0.05;Bonferroni校正,调整后的P值=0.05)。在相应基因组位置上标注了选定的候选基因。
候选基因结构与局部放大图(b, f):
上方展示了CRL1(b)和HSP60-3A(f)的基因结构,蓝色三角形表示代表性的候选适应性SNPs。下方则是选定基因周围的局部曼哈顿图放大,展示了SNPs(蓝圈)、indels(黄三角)和SVs(红方块)的分布。
候选适应性SNPs的等位基因频率(c, g):
分别展示了与BIO5(c)和BIO13(g)相关的候选适应性SNPs(LG04:25159299 和 LG07:4796402)在24个种群中的等位基因频率。地图颜色基于分布范围内相关气候变量的变化。
扩展单倍型同源性衰减(EHH)(d, h):
展示了LG04:25159299(d)和LG07:4796402(h)周围两种替代等位基因的EHH衰减情况。
基因表达水平(e, i):
使用qRT-PCR技术下,CRL1(e)和HSP60-3A(i)基因在淹没(e)和热处理(i)条件下的动态相对表达水平。误差棒代表标准偏差,n=3个独立生物样本。

补充 :

  • 该图通过曼哈顿图直观展示了与特定环境变量(温度和降水)相关的遗传变异位点,以及这些变异在不同人群中的地理分布和频率变化。
  • 通过EHH衰减分析,探讨了等位基因的连锁不平衡状态,为理解适应性变异的选择模式提供线索。
  • 动态表达分析揭示了候选基因在特定环境胁迫下的表达差异,进一步验证了它们在环境适应中的潜在功能作用。

通过这些详细的分析,研究者不仅定位了与特定环境适应性相关的基因位点,还探讨了这些基因的结构、等位基因频率分布、遗传背景以及在特定环境压力下的表达模式,为理解物种的地方适应性机制提供了重要线索。

5. Genomic offset prediction for future climate change(针对未来气候变化的基因组补偿预测)

也就是 “预测生物如何通过基因组适应性变化来弥补或应对即将发生的气候变化。”

在这里插入图片描述
在这里插入图片描述

预测方法与模型集成

  • 利用已建立的当代基因型-环境关系和识别出的气候相关遗传位点,预测P. koreana种群将如何响应未来气候变化。
  • 集成了四种未来气候模型的基因组偏移预测,考虑了模型间变异性,并采用了CMIP6联盟采用的共享社会经济路径(SSP126和SSP370)的两种排放情景进行两个定义时期的预测(2061-2080年和2081-2100年)。

非适应风险评估

  • 计算了非适应风险(RONA),衡量为了应对未来气候条件所需预期等位基因频率的转变。
  • 发现RONA值随更严峻的气候变化情景增加,高排放导致整体RONA值上升(SSP370 vs. SSP126)。
  • 环境变量和种群间存在显著的RONA估计值变化,面临更剧烈环境变化地区的种群预计有更高的RONA值。

梯度森林法应用

  • 使用梯度森林(GF)方法模拟沿当前环境梯度的等位基因频率变化,预测针对未来气候的遗传偏移。
  • GF估计的遗传偏移与RONA一致,显示了东南部韩国半岛附近种群对未来气候变化最为脆弱。

迁移整合分析

  • 评估了前进和反向遗传偏移,结合迁移因素,揭示了东南部种群具有相对高的本地、前进和反向偏移。
  • 结果表明,该区域内没有种群能预先适应未来的气候,且无法通过迁移到更适宜的栖息地来缓解。

遗传负荷与偏移关系

  • 分析了高遗传偏移种群是否承受更大的有害突变负担,但未观察到遗传偏移与遗传多样性和遗传负荷之间的关系,即使对于强烈有害的LOF变异。
  • 遗传偏移分析基于潜在适应性变异,而遗传负荷依赖于全基因组有害突变分布,因此两者之间关系最小。

结论与建议

  • 东南部韩国半岛附近的种群面临未来气候变化的高风险,需要更多的保护和恢复努力。
  • 尽管存在高遗传偏移,但并未伴随遗传负荷的增加,表明适应性变异与有害突变的分布可能独立。

本图集中展示了P. koreana种群在未来气候情景下适应性风险的量化评估,特别关注于“最热月份最高温度”(BIO5)和“最湿月份降水量”(BIO13)两个关键气候变量。在这里插入图片描述
图4 | P. koreana对将来气候条件的适应性风险评估(RONA)
适应性风险估计(a, c):
(a)展示了在SSP370气候情景下,2061-2080年间24个种群对BIO5的平均RONA估计值。地图上的栅格颜色代表了预测的未来气候变化程度(绝对变化),深红色区域预计经历更为显著的温度变化。
(c)同样在SSP370情景下,展示了对BIO13的平均RONA估计值,深蓝色区域预示着更显著的降水量变化。地图上的圆圈大小代表不同自然种群的RONA值。
不同气候情景下的RONA比较(b, d):
(b)和(d)分别对比了在SSP126和SSP370两个不同气候情景下,2061-2080年间各种群对BIO5(b)和BIO13(d)的平均RONA值。误差棒代表从四个不同气候模型计算出的平均RONA的标准误差(SE)。对于BIO5,分析了271个与气候相关的变异;对于BIO13,则分析了841个与气候相关的变异。

补充:
通过这些分析,研究者能够量化评估P. koreana种群面对未来气候变化的适应性风险,识别哪些种群可能面临更高的适应性挑战,以及气候变化如何在空间上影响种群的适应性。这对于制定针对性的保护策略、监测计划以及预测物种对全球变化的响应具有重要价值

Discussion(讨论)

在这里插入图片描述

发现

  • 气候变化威胁:持续的气候变化对物种种群构成重大威胁。
  • 适应性变异的重要性:种内适应性变异对缓解气候变化风险至关重要。
  • P. koreana案例:利用高质量基因组数据,研究了P. koreana的气候适应性遗传结构,揭示其适应性是通过小幅度多基因等位基因频率变化实现的。
  • 脆弱种群定位:确定了东南部种群在未来的气候变化下最为脆弱,这些种群含有独特的气候适应性遗传资源。

预测与验证

  • 谨慎解读预测:对种群未来不适应性的基因组预测需谨慎,需实证验证。
  • 实证验证方法:建议通过共同花园实验或控制环境测试,将遗传偏移与个体适应度下降联系起来,以验证预测准确性。

复杂性与局限性

  • 多基因适应复杂性:多基因适应的复杂性(如一因多效LFMM和遗传冗余RDA)在当前评估中未充分考虑,未来研究需关注此领域。
  • 遗传负荷与气候变化:种群对气候变化的响应潜力与遗传负荷无直接关联,需进一步研究两者在气候变化下的关系。

未来方向

  • 方法整合:未来研究应整合定量遗传学和系统生物学方法,以改进对气候变化引起的基因组偏移的预测。
  • 进化过程融合:深入理解遗传负荷与种群脆弱性的关系,需将进化过程纳入物种对气候变化响应的预测中。

图5 | 预测P. koreana在SSP126和SSP370情景下2061-2080年的遗传补偿对未来气候变化的影响在这里插入图片描述
遗传补偿预测图(a, b):
(a)和(b)分别展示了在SSP126和SSP370情景下,基于四种气候模型平均预测的P. koreana分布范围内遗传补偿的预测图(n=60,000网格)。颜色从蓝色到红色表示遗传补偿值逐渐增加,地图上的点反映了24个采样种群的位置。
本地、前进和逆向遗传补偿的RGB图(c, d):
(c)和(d)展示了在SSP126和SSP370情景下,P. koreana分布范围内本地(红色)、前进(绿色)和逆向(蓝色)遗传补偿的RGB图。更亮的单元格(接近白色)沿三个轴具有相对较高的值,而较暗的单元格(接近黑色)具有相对较低的值。下部面板分别是(c)和(d)的二维散点图,包含1:1线,用于直观比较三种类型的遗传补偿。

补充:

通过这些分析,研究者能够评估P. koreana种群在不同未来气候情景下,通过遗传变异适应环境变化的能力,识别哪些区域或种群可能展现出更强的遗传补偿效应,以及不同类型的遗传补偿在空间上的分布模式。这对于理解物种的适应性潜力、预测未来种群动态以及制定有效的保护和管理策略至关重要。

Methods(方法)

1. Plant materials and genome sequencing(植物材料和基因组测序)

  1. 收集植物样本
    从中国吉林省长白山的野外采集了一些新鲜的植物叶子。这种植物叫作P. koreana,是一种研究对象。
  1. 提取DNA
    从这些叶子中,提取出了植物的DNA。使用了一种叫做CTAB的方法,这是一种特别设计用来从植物细胞中高效提取DNA的技术。
  1. Illumina短读长测序
    接下来,准备了一些DNA的小片段,就像把长绳子剪成很多小段一样。这些小片段被放入一种叫做Illumina HiSeq X Ten的机器中进行测序。这台机器可以快速读取DNA序列,但一次只能读取一小段,所以被称为“短读长”。
  1. Oxford Nanopore长读长测序
    除了短读长测序,还使用了一种叫做Oxford Nanopore的设备来进行长读长测序。这次,他们使用的是更长的DNA片段,这样可以获得更长的DNA序列信息,有助于拼接出更完整的基因组图像
  1. Hi-C技术
    最后,为了了解DNA片段在细胞核中的三维排列方式,使用了一种叫做Hi-C的技术。这项技术可以揭示DNA片段之间的物理接触,构建出更精确的染色体结构模型
    在这个过程中,也是从相同的植物样本开始,经过一系列复杂的步骤,包括将DNA切成更小的片段,然后让它们在细胞内自然“粘合”,最后通过测序来分析哪些片段粘在一起,从而推断出它们在染色体上的相对位置

涵盖了从P. koreana植物中提取DNA并进行测序的详细步骤,包括使用不同的测序技术和平台,如Illumina的短读长测序和Oxford Nanopore的长读长测序,以及用于染色体构象捕获的Hi-C技术。这些技术结合使用可以提供基因组的高分辨率视图,包括基因组组装、基因注释和染色体结构的解析。

补充:

CTAB法提取DNA的原理、步骤及注意事项
Pacbio和Nanopore测序技术之拳王争霸
二代测序技术之illumina测序技术原理简介
Hi-C 测序技术(图解详解)

2. Genome assembly and scaffolding(基因组组装和脚手架)

scaffolding可以解释为:在初步的基因组组装基础上,进一步利用配对端读段信息或其他类型的长距离联系数据,将这些较短的连续序列(contigs)按照正确的顺序和方向连接起来,形成更长的、接近染色体级别的序列结构。这一步骤提高了基因组组装的连续性和准确性,就像建筑施工中使用脚手架来支撑和指导建筑物的构造一样。

翻译:
在这里插入图片描述

想象一下,你正在拼一幅非常大的拼图,但这幅拼图的碎片来自多个不同的盒子,而且有些碎片可能有瑕疵或者缺失。面对的挑战就是如何把这些混乱的DNA片段(就像拼图的碎片)正确地拼接起来,形成一个完整的基因组图谱。
整个过程就像是从一堆混乱的拼图碎片开始,逐步清理、拼接、调整和验证,直到最终形成一幅完整、准确的基因组拼图。

第一阶段:拼接DNA片段

校正读段:首先,使用特殊的计算机程序,比如NextCorrect,来检查和修正DNA片段的错误,就像是在拼图前先清理和修复碎片。

初步组装:接着,使用Smartdenovo这样的工具,将这些修复过的片段初步拼接起来,形成一个大致的框架,就像拼图的第一遍拼接。

第二阶段:提高准确度

打磨:为了确保拼图的准确性,会反复检查和调整,使用Racon和Nextpolish这样的工具,就像在拼图完成后,再仔细检查是否有缝隙或不平整的地方,进行微调。

去除多余部分:最后,还会使用purge_haplotigs这样的工具,移除那些不属于拼图一部分的多余碎片,确保最终的拼图干净整洁。

第三阶段:染色体级别的组装

利用Hi-C数据:用一种叫做Hi-C的技术,它能帮助确定这些DNA片段在细胞核里的真实位置关系,就像给拼图添加了一个三维视角,让拼图更加立体和真实。

定位和排序:通过LACHESIS这样的工具,可以将DNA片段按照它们在染色体上的真实位置进行定位和排序,就像是按照拼图盒子里的参考图,将拼图的每一部分放到正确的位置上。

第四阶段:验证完整性

完整性检查:最后,使用bwa和BUSCO这样的工具,检查拼好的基因组是否完整,就像是检查拼图是否缺少任何一块,确保最终的成果是完整无缺的。

补充:

NextDenovo v2.0-beta.1

Smartdenovo v1.0.0

3. Repeat and gene annotation(重复序列和基因注释)

翻译:
在这里插入图片描述

在这里插入图片描述


想象你有一本巨大的书,书里充满了各种各样的故事,但是这些故事中有很多相似或重复的部分,还有一些故事我们还不太了解。
我们的工作就是去解读这本书,找出重复的部分,理解每个故事的意义,这就是基因组的重复序列与基因注释工作。

重复序列注释

找重复的部分:使用一些特殊工具(比如EDTA和TEsorter),就像侦探一样,去查找书中的重复段落。这些重复的部分可能是一些基因的副本,或者是基因组中的“垃圾”DNA。

基因注释

理解故事:不仅要找到书中的故事,还要理解每个故事讲的是什么。使用几种方法来做到这一点:

  1. 基于其他书籍的故事:他们参考其他已经理解的书籍(比如其他植物的基因组),看看是否有相似的故事,这种方法叫作基于同源性的预测
  2. 听故事的录音:他们也听故事的录音(转录组数据),看看故事是如何被讲述的,这种方法叫作基于转录组的预测
  3. 自己猜故事:有时候,没有参考,他们就得自己猜测故事的内容,这种方法叫作从头预测

整合故事:最后,把所有找到的故事片段拼接起来,形成一个完整的故事集,这就是基因注释的最终结果。

非编码RNA注释

寻找特殊符号:除了故事,书中还有许多特殊符号,比如注释、插图等,这些在基因组中对应的就是非编码RNA。科学家们也会专门去识别这些特殊符号,了解它们的作用。

功能注释

故事的意义:理解了故事内容后,科学家们还要去探索每个故事的意义,也就是基因的功能。他们会在各种数据库中查询,看看这些基因在其他生物体中扮演什么角色,参与哪些生命活动。

TEsorter v1.2.5

4. Genome resequencing, read mapping, and variant calling(基因组重测序、映射比对和变异检测)

翻译:
在这里插入图片描述

想象一下,你是一位侦探,手里拿着一张古老的地图(基因组),你的任务是找到地图上的变化,这些变化可能揭示了家族的秘密(遗传变异)。下面是如何进行这项工作的通俗解释:

整个过程就像是侦探破案,从收集线索(样本)、提取关键信息(DNA提取与测序)、比对资料(读段映射)、发现异常(变异调用)、排除干扰(筛选高质量变异),到最后解读故事(变异注释)。

收集样本与测序

  1. 收集样本:就像侦探需要从不同地方收集线索,科学家们从自然环境中收集了230个个体的样本,确保每个样本之间足够远,避免信息重复。

  2. 提取DNA:从样本中提取DNA,这就像从证物中提取指纹,以便进一步分析。

  3. 测序:使用先进的测序技术,对DNA进行“阅读”,得到一系列的DNA字母串(测序读段),这相当于将指纹转化为数字信息。

数据清洗与匹配

  1. 数据清洗:就像侦探会清除无关的线索,科学家们使用软件去除低质量的数据,确保每条信息都是清晰可靠的。

  2. 比对基因组:将这些“指纹”与一个标准地图(参考基因组)进行比对,看哪些地方有差异,这一步就像比对指纹库,找出独特之处。

发现变异

  1. 发现小变化:使用专业工具,科学家们寻找单个碱基的差异(SNPs)和小段碱基的增减(indels),就像寻找指纹中的微小不同。

  2. 寻找大变化:还寻找大片段的缺失或额外插入(SVs),这相当于在地图上发现整块区域的改变。

筛选高质量变异

去除噪音:就像侦探会排除误导信息,科学家们去除那些可能由实验误差造成的假阳性变异,只保留真正有意义的变化。

注释与分析

解读意义:最后,对这些变异进行注释,理解它们在生物学上的意义,这就像解读指纹背后的犯罪故事,理解变异对生物特性的影响。

补充:

Picard v.2.18.11.

SNPable

5. Ecological niche modeling(生态位建模)

在这里插入图片描述

生态位建模是一种预测物种潜在分布范围的统计方法,它基于物种已知的分布点和环境条件的关系。

在这个过程中,Maxent模型利用物种出现的位置数据和一组环境变量(如温度、降水模式等)来预测物种在不同地理区域的适合度。

通过整合多个来源的地理数据,可以提高模型的准确性和可靠性,从而更全面地理解物种的生态位和分布潜力。

补充:

Chinese Virtual Herbarium

Global Biodiversity Information Facility

6. Population structure analysis(群体结构分析)

在这里插入图片描述

想象你正在玩一个非常大的拼图游戏,这个拼图代表了一个物种在不同地区的分布情况。你手上有许多小拼图块(SNPs),但它们混在一起,你需要找出它们之间的联系,了解整个拼图的结构。这就是科学家们在做种群结构分析时做的事情。
通过挑选关键的拼图块、尝试不同的拼图方式、画出主线条、测量距离、构建家谱,以及检查拼图与地理位置的关系,来理解一个物种如何分布在不同的地区,以及这些分布背后的原因。

步骤分解:

挑选有用的拼图块:首先,科学家们从一大堆拼图块中挑出那些重要的部分(即独立的SNPs),这样可以让拼图更清晰,不会因为太多相似的块而混淆。

尝试不同的拼图方式:接下来,他们尝试用不同的方式把这些拼图块组合起来,看能拼出多少种图案(这叫做“K值”)。这样做是为了找出最合理的拼图方案,也就是物种的种群结构。

画出拼图的主线条:科学家们还会画出拼图的主要线条(主成分分析),这可以帮助他们看到拼图的大致轮廓,即种群之间的主要区别。

测量拼图块间的距离:他们还会测量每一个拼图块与其他块之间的距离(评估个体间的亲缘关系),这就像在拼图上标出每个部分之间的关系有多紧密。

构建拼图的家谱:根据这些距离,科学家们可以构建一个家谱树,显示不同拼图块(即不同个体或种群)之间的亲缘关系。

检查拼图与地理位置的关系:最后,他们会检查拼图的分布是否与实际的地理位置有关,也就是看物种的遗传差异是否受到地理隔离的影响

7. Genetic diversity, linkage disequilibrium and demographic history analysis(遗传多样性、连锁不平衡与群体历史分析)

在这里插入图片描述

科学家们想要了解一种名为P.koreana的植物在不同地区的遗传多样性,以及其种群大小在过去是如何变化的。他们通过以下步骤来实现这一目标:

  1. 遗传多样性的计算:使用pixy v0.95.0程序工具,他们在考虑了所有基因位点(无论是变化的还是不变的)的情况下,计算了每个种群内部和种群之间的遗传多样性。这帮助他们理解不同种群间的遗传差异。

  2. 连锁不平衡分析:利用PopLDdecay v3.4,通过计算不同种群中基因位点之间的关联程度,科学家们能够了解基因如何在种群中共同传递,这对于理解遗传结构非常重要。

  3. 历史种群大小推断:利用PSMC方法,科学家们分析了P.koreana的有效种群大小随时间的变化。这涉及到选择一些个体,分析他们的基因数据,并通过数学模型推测过去种群的大小和变化趋势。

8. Identification of environment-associated genetic variants(与环境相关遗传变异的鉴定)

在这里插入图片描述

想象一下,你正在寻找为什么某些植物在寒冷的地方长得好,而在温暖的地方却不行的秘密。科学家们就是通过一系列复杂但有趣的方法来解开这个谜团的,他们想要找到哪些基因让植物适应不同的环境。

通过复杂的统计分析,找到了植物基因与环境之间的联系,理解了哪些基因帮助植物适应不同环境,以及环境如何影响植物的基因变异。

方法一:找“基因-环境”的关系

首先筛选出那些在很多植物中都常见的基因变异,然后用一种叫LFMM的高级统计方法来看这些基因变异和环境(比如温度、湿度)之间是否有联系。看看哪些基因变异可能帮助植物适应环境。

方法二:找“基因群-环境”的关系

接着,使用另一种方法——冗余分析(RDA),来寻找一组基因变异与多个环境因素之间的联系。这种方法能帮助他们理解,植物的基因如何协同工作,以适应复杂的环境条件。

探究地理和环境的影响

科学家们还想知道,是地理位置还是环境条件对植物的基因变异影响更大。他们用了一些统计测试(Mantel和部分Mantel测试)来比较适应性变异(帮助植物适应环境的变异)和中性变异(不影响适应性的变异)的空间分布。这有点像在地图上标出哪些地方的植物有特殊的基因,然后看这些地方的环境有什么特点。

分析选择压力

最后,科学家们会研究哪些环境因素对植物的特定基因产生了“选择压力”,也就是说,哪些环境条件使得某些基因在植物中变得更加普遍。这就像观察哪些类型的种子在特定环境中更容易生长,从而理解环境如何塑造植物的基因组成。

9. Stress treatment and expression analysis by qRT-PCR(胁迫处理及qRT-PCR表达分析)

在这里插入图片描述
想要研究植物如何通过特定的基因变异来适应环境压力,如过多的水或高温。他们首先准备植物样本,然后对植物进行淹没或热应激处理,观察不同时间点下特定基因的表达变化

通过qRT-PCR技术,他们能够测量在不同应激条件下这些基因的活性水平,进而理解植物如何利用这些基因来适应不利的环境条件。

基因表达分析技术:q-PCR、RT-PCR和qRT-PCR的比较与应用

10. ATAC-seq analysis(ATAC-seq 分析)

在这里插入图片描述

ATAC-seq是一种用于研究开放染色质区域,即基因组中可被转录因子和RNA聚合酶访问的部分的技术。以下是针对P.koreana进行ATAC-seq分析的具体步骤:

  1. 样本准备:从用于构建P.koreana基因组的同一植株上采集新鲜叶片组织。按照参考文献100的实验方案,大约500毫克的速冻叶片立即被切碎并进行后续处理。

  2. 文库构建与测序:处理后的叶片组织用于构建ATAC-seq文库,随后在Illumina HiSeq X-Ten平台上进行测序,生成原始读段。

  3. 数据预处理:使用Trimmomatic v.0.36软件对原始读段进行质量控制,允许最多两个碱基不匹配,NexteraPE用于去除接头序列。

  4. 比对至参考基因组:使用Bowtie v.2.3.2软件将清洁读段比对至参考基因组,参数设置为‘bowtie2 -very-sensitive -N 1 -p 4 -X 2000 -q’,其中允许的种子比较错配数设定为1,线程数设定为4,最长插入片段长度设定为2000。

  5. 排序与过滤:使用SAMtools v.1.1.1对对齐的读段进行排序,使用Picard v.2.18.11去除PCR扩增产生的重复读段及映射到叶绿体或线粒体的读段,只保留高质量的正确配对读段用于后续分析。

  6. 峰值调用:使用MACS2软件进行ATAC-seq峰调用,采用‘-keep dup all’功能,该功能保留所有重复的读段,以便更准确地识别开放染色质区域。

11. Genomic offset assessment(基因组补偿评估)

在这里插入图片描述
RONA(非适应性风险):
在这里插入图片描述

科学家们正在研究一种树——P.koreana,看它如何应对未来可能发生的气候变化。他们想知道,树木的基因组(也就是它的遗传信息)是否准备好应对比如更热或更湿的环境。为了做到这一点,他们用了三个主要的方法来评估树木基因组的“适应能力”。

  1. 理论适应性计算:科学家们首先计算了理论上需要的基因变化量,来帮助树木适应未来的气候。他们找到了那些与环境变化相关的基因,并假设如果这些基因能以某种方式改变,那么树木就能更好地生存。他们还考虑了不同类型的基因变化,比如单个碱基的改变(SNPs)、小片段的缺失或增加(indels),以及大片段的结构变化(SVs)。

  2. 机器学习预测:接着,他们使用了一种叫作“梯度森林”的机器学习方法,来预测树木基因组在不同气候下的变化。这种方法有点像预测天气,但在这里,他们预测的是基因组的变化。他们不仅看了全部的环境因素,还特别关注了六种关键的环境变量,来预测基因组的变化。

  3. 考虑迁移的影响:科学家们还考虑了树木移动的可能性,比如种子被风吹到新的地方。他们想知道,如果树木能迁移到更适合的地方,那它需要怎样的基因变化。他们计算了三种情况下的“基因组偏移”,包括在原地、向前(迁移到未来更适宜的地方)和反向(回到过去更适宜的地方)的偏移

最后,他们还研究了树木基因组的变化是否与它携带的“有害基因”有关。有害基因(遗传负荷)是指那些可能会导致疾病或其他问题的基因。他们发现,如果树木有更多的有害基因,那它可能更难适应未来的气候变化。

通过三种方法评估了P.koreana基因组对气候变化的适应能力。计算了理论上需要的基因变化,使用机器学习预测了基因组在不同气候下的变化,并考虑了树木迁移的影响。此外,他们还研究了树木基因组的变化与携带的有害基因之间的关系,以全面了解树木如何应对未来的环境挑战。

Data and Code availability(数据和代码)

在这里插入图片描述

1. 数据

PRJCA008692

在这里插入图片描述

2. 代码

https://github.com/jingwanglab/Populus_genomic_prediction_climate_vulnerability

在这里插入图片描述


总结

本文主要对这篇文献进行了一个精读笔记的记录,按照其文献格式,从摘要、引言、结果、讨论、方法这五个内容方面进行了阅读。了解了P.koreana物种在当地适应和未来气候导致的脆弱性的基因组研究的大致流程。为后续自身的研究做了一些基础。

2024/7/30

  • 19
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

星石传说

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值