【文献阅读】全球非冗余微生物基因集GMGCv1的构建

全球非冗余微生物基因集GMGCv1的构建

0. 原文信息

标题:Towards the biogeography of prokaryotic genes

期刊:Nature, December 2021

第一作者:Luis Pedro Coelho

通讯作者:Luis Pedro Coelho

作者单位:Institute of Science and Technology for Brain-Inspired Intelligence, Fudan University, Shanghai, China

doi: 10.1038/s41586-021-04233-4

1. 摘要

Microbial genes encode the majority of the functional repertoire of life on earth. However, despite increasing efforts in metagenomic sequencing of various habitats, little is known about the distribution of genes across the global biosphere, with implications for human and planetary health (对全球生物圈的基因分布情况知之甚少,其对于人体或地球环境卫生健康的影响也是如此。). Here we constructed a non-redundant gene catalogue of 303 million species-level genes (clustered at 95% nucleotide identity) from 13,174 publicly available metagenomes across 14 major habitats and use it to show that most genes are specific to a single habitat. The small fraction of genes found in multiple habitats is enriched in antibiotic-resistance genes and markers for mobile genetic elements. By further clustering these species-level genes into 32 million protein families, we observed that a small fraction of these families contain the majority of the genes (0.6% of families account for 50% of the genes). The majority of species-level genes and protein families are rare. Furthermore, species-level genes, and in particular the rare ones, show low rates of positive (adaptive) selection, supporting a model in which most genetic variability observed within each protein family is neutral or nearly neutral.

本文选取了全球范围内14种主要生境的一万余组已公开的宏基因组测序数据进行非冗余基因集的构建,共获得3.03亿个物种水平的基因。这些基因被进一步聚类为3200万余个蛋白质家族,且少数蛋白质家族包含大多数基因,大多数基因和蛋白质家族都属于稀有的。

什么是非冗余基因集?

英文原文是Non-Redundant Gene Catalogue,也会翻译成非冗余基因目录。非冗余基因集是从宏基因组测序组装数据中预测的编码区段中预测到的基因集合经过聚类去除冗余得到的基因集。

什么是物种水平的基因?

英文原文是Species-level genes,也会翻译成物种级的基因。个人理解指的是与不同物种挂钩的基因,即同一基因在不同物种中的存在形式(有点像直系同源?)。

什么是蛋白质家族?

英文原文是Protein families。蛋白质具有一定的序列与结构特性,在这些特性上具有一定相似性的一系列蛋白质组成一个蛋白质家族。一般来说,编码属于同一个蛋白质家族的蛋白质的基因序列也应该是相似的。

2. 研究主要结果

GMGCv1:全球微生物基因集

本文从全球尺度上14种生境(包括宿主相关与环境)中的宏基因组数据整理了一个标准统一、不含冗余的基因集,称为Global Microbial Gene Catalogue,简称GMGC,后面的v1指的可能是第1版,之后可能还会有进一步的更新。

宏基因组数据样品生境分布

本研究涉及的14个生境为:人肠道、猫肠道、人皮肤、人口腔、海洋、污水、人阴道、小鼠肠道、猪肠道、狗肠道、人鼻腔、土壤、人工环境与淡水。

获得数据后,使用统一的流程对所有数据进行半人工筛选、组装与开放阅读框预测。为了增大目标基因集的覆盖范围,还选用了proGenomes2数据库中已标为高质量基因组(共8万余个)中的3亿多个开放阅读框一起进行去冗余,构建具有生境特异性的非冗余基因集,按照95%的核苷酸一致性标准进行聚类,获得3亿多个clusters,每个cluster选出一个代表序列作为该基因,即对应特定物种的特定基因的单拷贝,称为Unigene。除了按照核苷酸一致性标准的聚类,还进行了基于同源性的聚类,要求序列显著相似的同时,还设置了氨基酸一致性的4个层次(90%、50%、30%、20%)等。其中,90%对应一些蛋白数据库的严格标准,该标准下仅生成2.1亿个蛋白cluster,而20%的聚类结果生成有近3.2亿个具有统计意义的蛋白cluster。宏基因组数据组装得到的重叠群(contigs)长度可能不满足拼出完整的ORF,本研究中获得的unigene中有68.5%被识别为不完整的ORFs。作者同样构建了这样一个基因集,其中仅含有完整的ORFs,并同样进行了蛋白质家族的聚类。

开放阅读框(Open Reading Frame,ORF):基因从5′末端启动子到3′末端终止子的区域。主要包含基因的编码内容。

proGenomes2数据库:https://progenomes.embl.de/ proGenomes v2.1 provides 84,096 consistently annotated bacterial and archaeal genomes from over 12000 species.

在这里插入图片描述

最大的蛋白质家族含有73,979个unigenes,大部分蛋白质家族包含的unigene数目都很少,所以unigene在蛋白质家族中的分布图呈现长拖尾形式(long-tailed)。仅0.6%的蛋白质家族内能够囊括超过3.03亿个unigenes中50%以上。

在获得MAGs之后,在3亿多个unigenes中仅4000万个进入MAGs。然而,对于人类肠道这种已经有大量研究发表的环境,有超过95%的读长序列能够映射到MAGs上。

MAGs:Metagenome-Assembled Genomes, 宏基因组组装基因组,指宏基因组数据经质控、组装与分箱得到的代表性基因组。

基因的生境特异性

3亿余个unigenes中,仅5.8%为多生境基因,它们的存在形式可能是被那些能够在多种生境下生活的物种所拥有,或者它们属于可移动遗传元件。检验发现,与可移动遗传元件相关的unigenes更有可能在多生境中存在,例如抗生素抗性基因。

每个生境下也生成了单独的宏基因组物种(metagenomic species, MGSs),约1/7的MGSs在不同生境间共享,且更可能在相似的生境中共享(例如不同哺乳动物的肠道环境,占多生境MGSs的约70%)。

Richness Pattern也是具有生境特异性的

为探究各生境中同种基因的存在情况,使用通用单拷贝基因的丰富度来衡量分类丰富度(taxonomic richness)并将其与unigene丰富度进行比较。

在这里插入图片描述

不同生境样品中同种基因数量的密度分布(平滑正态核密度图,上图a)显示,单样本泛基因组在环境样本中更大,且海洋和土壤这样的环境中表现出了多个分布模式(有不同的峰),对于海洋来说,不同的峰可能是由于不同的采样深度导致的。因此认为,在一组宏基因组中,不同物种的unigene数量可能是具有生境特异性的。为了检验观测到的unigene丰富度是否是由一组执行相近功能的同源unigenes共同驱动或是一系列功能类群共同表现的,利用蛋白质家族丰富度与物种水平unigene丰富度的比值来衡量功能冗余,展示于上图b。

随后,建立了一个仅使用分类学信息、系统发育信息、稀释化之后的unigene丰富度与稀释化之后的蛋白质家族丰富度四个指标来预测生境的分类器来验证生境特异性。结论是每个环境中的功能冗余都与其生境密切相关,研究功能冗余的模型需要添加特定的生境特异性参数。

正态核密度图:Guassian Kernel Histogram,一类根据一组未知分布数据估计其概率密度函数的方法。

图a是每个物种所包含的属于该物种的unigene的分布。土壤和海洋是多峰的,即证明该环境下可能具有不同的unigene分布模式。也就是说,在多数的宿主相关的环境中,大部分物种都具有相对单一的物种unigene丰度分布,例如在鼠肠道中,物种所含的unigene的数目集中在约4000。

图b则体现了功能冗余的分布,即同一功能可以由不同的基因来调控完成。由于我们认为同一蛋白质家族成员在结构与功能上是相似的,因此用观测到的蛋白质家族丰度与其成员unigene的丰度的比值来表示该蛋白质家族(对应某一类功能冗余)的unigene丰度分布模式。

大多数基因是都稀有的

检测unigenes在所有样品中普遍情况,发现大多数基因检测频率较低。如果定义在10个或10个以下样品中(总共13,174的样品, 10个样品占比少于0.1%)检测到的基因为稀有基因(rare genes),则54.7%的基因都是稀有基因。这样一种幂律分布的形式符合中性(或近中性)进化的假说。

幂律分布:Power Law Distribution,幂律分布的随机变量密度函数是幂函数,在双对数坐标下,幂律分布表现为一条斜率为幂指数的负数的直线。符合这种分布的随机变量具有少数事件分布密度大、大部分事件分布密度小的特征。具有这种特征的事件常称为无标度事件(scale-free)。常用的网络分析模型就是无标度的。

中性进化假说:基因的变异在进化上是中性的,不是为了适应特定的生态位。

研究还发现,稀有unigene相比于广泛unigene来说在功能上的互作相对较少,与稀有unigene受到进化压力相对较少是一致的。

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

EmmettPeng

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值