CHESS 3:基于大规模表达数据、系统发育分析和蛋白质结构的改进、全面的人类基因和转录本目录

摘要
CHESS 3 是一个基于接近 10,000 个 RNA-seq 实验(覆盖 54 个体部位)改进的人类基因目录。通过整合最新的参考数据和算法、用于噪音过滤的机器学习技术以及新的蛋白质结构预测方法,它显著改进了现有的基因组注释。CHESS 3 包含 41,356 个基因,包括 19,839 个蛋白质编码基因和 158,377 个转录本,其中有 14,863 个蛋白质编码转录本不在其他目录中。它包含了所有 MANE 转录本,并且为大多数 RefSeq 和 GENCODE 基因提供了至少一个转录本。在 CHM13 人类基因组中,CHESS 3 目录额外包含 129 个蛋白质编码基因。CHESS 3 可通过以下网址获取:http://ccb.jhu.edu/chess。

背景

随着 2021 年首次发布的真正完整的人类基因组(CHM13)[1],科学界现在有机会通过不仅确定基因组序列,还识别出基因组中的所有基因,从而完成人类基因组计划。T2T 联盟的组装报告了 2226 个已知人类基因的额外副本,以及总计 63,494 个基因,包括 19,969 个编码蛋白质的基因座和 86,245 个转录本。该注释是通过将 GENCODE v35 [2] 的注释映射到 CHM13 组装上生成的,随后使用 Liftoff [3] 识别额外的基因副本。因此,尽管 CHM13 的基因列表比相应的 GRCh38 注释更完整,但它并不包含 RefSeq [4]、CHESS [5]、FANTOM [6]、APPRIS [7] 或其他人类基因数据库中的所有基因。

CHESS 人类基因目录首次发布于 2018 年 [5],旨在提供一个包含所有编码蛋白质基因和非编码基因的全面数据库。与其他项目不同,CHESS 基因几乎全部基于 RNA 测序实验的直接实验证据,特别是大规模的 Genotype-Tissue Expression (GTEx) 项目,该项目从数百名个体和数十种组织类型中生成了数千个深度 RNA 测序数据集 [8]。CHESS 的构建始于对所有这些实验的大规模组装,生成数百万个转录本,随后对这些转录本进行过滤,生成最终的数据库。如以下所述,这个过程意味着 CHESS 中的几乎每个基因都可以直接与该基因表达的实验证据相关联。为了确保其完整性,并且因为 GTEx 没有捕获 100% 的人类基因,我们识别并添加了在其他数据库中但未从 GTEx 数据组装的任何可靠基因到 CHESS 中。

尽管经过数十年的努力,主要的人类基因数据库在基因的确切数量或结构上仍未达成一致,反映了这一任务的困难 [9]。CHESS 的最新版本包括显著改进的转录组组装方法、一种用于识别可靠内含子的新的机器学习策略,以及基于蛋白质结构预测的新验证步骤,但仍不期望成为最终的、权威的人类基因列表。为了使 CHESS 尽可能完整,我们通过确保它包含 MANE 数据库中的所有基因来扩充组装的基因列表。MANE 是一个最近开发的(但仍不完整的)目录,其中包含几乎所有编码蛋白质基因的一个高质量转录本,并且 RefSeq 和 GENCODE 在转录本边界和编码序列上完全一致 [10]。

与其他人类基因目录以及 CHESS 以前的版本相比,CHESS 3 在包括基因和转录本时采用了更为严格的方法。特别是,我们不在主要数据库中包括任何看似无功能的基因或转录本,尽管我们为希望使用它们的用户提供了单独的组装转录本集。这种策略意味着异常转录本,如由错误剪接产生或产生截短和无功能蛋白的转录本,不包括在 CHESS 中。其他目录包括了数千个这样的转录本,有时会标记它们为无功能,但有时只是包含而没有任何警告。尽管对此话题的看法不同 [11],但越来越多的证据表明,许多可变剪接事件并不会产生功能性蛋白质 [12]。我们已经描述了这些通常在非常低表达水平上发生的无功能转录本如何可能混淆分析软件并产生误导性结果 [13],并且通过排除它们,注释数据库将得到改善。

构建与内容

用于创建 CHESS 3 的流程如图 1 所示。简而言之,最初从 GTEx 联盟项目 [8] 中收集了 31 种组织类型的 9795 个样本,用于构建 CHESS 目录版本 2.2 [5]。在添加了 GTEx 联盟在 2018 年发布的 132 个样本后,我们使用最新的 HISAT2 软件 [14] 对这些样本的序列进行了比对,对于女性样本使用了仅包含 X 染色体的参考基因组,以避免错误地将序列比对到 Y 染色体 [15]。随后,我们使用 StringTie2 [16] 对比对后的 9927 个样本的序列进行了组装。样本根据组织类型分组并合并,如前所述。这些初始步骤生成了 26,335,900 个转录本,其中绝大多数表达水平较低。

接着,我们进行了一系列数据清理和过滤步骤,这些步骤在附加文件 2:补充方法中有详细描述。过滤步骤旨在去除转录噪音,包括低表达水平以及片段化的转录本。为了过滤掉仅在少数组织样本中低水平表达的转录本,我们使用 TieBrush [17] 聚合了每个组织的所有比对结果,并使用 StringTie2 对每个组织重新组装。我们只保留了初始样本中组装的转录本,以及聚合比对后保留的转录本。我们应用了更严格的过滤步骤,去除了噪音转录本,仅保留了有良好支持的内含子的转录本。这些步骤将数据集减少到了 160,482 个转录本,其中 97,661 个为编码蛋白质的转录本。所有编码蛋白质的转录本都被分配了编码序列(CDS)特征,这些特征或从匹配的 RefSeq 转录本中复制(如有),或通过 ORFanage [18] 程序生成,具体见附加文件 2:补充方法。为了讨论的方便,我们将这些称为“Beta”蛋白。

接着,我们使用了一种先前在人类基因注释数据库中未系统使用的方法:由 AlphaFold2 进行的蛋白质结构预测,AlphaFold2 为大多数蛋白质生成了高度准确的结构 [19]。特别是,当 AlphaFold2 的 pLDDT 分数大于 70 时,预测被认为是可靠的,除了短蛋白质外 [20]。

我们首先使用了来自 GTEx 的较不严格过滤的转录本集合,并对长度小于 1000aa 的所有蛋白质进行了结构预测,使用的是在公共云计算资源上运行的 AlphaFold2 版本 ColabFold [21],如另一项研究中描述 [22]。该数据集包含 194,780 个结构。我们识别了其中 pLDDT 分数大于 70 的结构,并进一步过滤以识别那些蛋白质不属于 97,661 个“Beta”蛋白的转录本。这为我们提供了 54,205 个“候选”转录本,这些转录本编码的蛋白质的分数均为 70 以上,并且不属于 Beta 集。

然后我们运行了 gffcompare [23] 来比较候选转录本和 Beta 转录本,同时使用自定义脚本直接比较蛋白质序列。任何是 Beta 蛋白质子串的蛋白质都被移除。对于完全包含 Beta 蛋白质的蛋白质(即长度更长的蛋白质),我们根据 ColabFold 的评分进行评估:如果 ColabFold 评分是给定基因座上得分最高的同工型,我们保留该转录本;否则我们移除它。经过这些步骤,候选转录本的数量减少到 31,772 个。

我们还注意到,如果一个蛋白质片段主要由结构良好的氨基酸组成,它有时会比完整长度的功能蛋白得分更高,即使它短得多。因此,我们移除了以下预测蛋白质:(a) 长度小于 70 个氨基酸的蛋白质,或 (b) 长度不到同一基因座最长蛋白质的 2/3 的蛋白质。此过滤步骤将候选数量减少到 13,133 个。

在此基础上,我们通过多种方式去除了重复项。首先,我们识别出在给定基因座上编码相同蛋白质的所有转录本,如果其中一个转录本与 RefSeq 或 Gencode 转录本匹配,我们仅保留该转录本。在剩余的重复转录本中,我们保留了在 GTEx 样本中组装次数最多的转录本。通过这些步骤,候选列表缩减到 12,075 个转录本。

最后,我们识别了可能存在冲突的转录本,这些转录本与多个基因座重叠,可能代表了“读穿”转录。我们也移除了这些,最终得到 11,225 个蛋白质编码的转录本,并将其添加到 Beta 集中。每一个额外的转录本都编码了得分至少为 70 的蛋白质,而这些蛋白质在 Beta 集中没有出现。

CHM13 的注释使用 Liftoff [3] 将基因从主要染色体(不包括替代 scaffold)映射到完整的 CHM13 基因组上。GRCh38 包含一些已知是错误重复的区域,主要位于 21 号染色体上 [24, 25]。这些区域包含 15 个 21 号染色体上的基因,它们是伪造的副本以及其他伪造基因,因此我们在将剩余基因映射到 CHM13 上之前屏蔽了这些基因。唯一的例外是 TRPM3,因为它的错误重复仅限于 GRCh38 的内含子区域,所以我们没有屏蔽它。

除了错误重复外,几乎相同的核糖体 DNA (rDNA) 阵列也是一个问题。一个 rDNA 阵列由多个 rDNA 单位组成,每个单位包含三个核糖体 RNA 基因:18S、5.8S 和 28S,它们之间由转录间隔区分开,末端是基因间序列 (IGS) [26]。在 CHM13 中,位于 13、14、15、21 和 22 号染色体上的 rDNA 单位共有 219 个拷贝。

我们采用了两步法将 CHESS 注释从 GRCh38 映射到 CHM13。首先,我们使用 bedtools [27] 屏蔽了 CHM13 上的所有 rDNA 区域,然后将除了 rDNA 基因之外的所有注释映射到屏蔽后的 CHM13 基因组上,以防止注释被映射到这些复杂区域。我们使用了 95% 的最低序列相似性阈值来识别 CHM13 中的基因额外副本。在这个初步映射过程之后,我们将来自 CHM13 v2.0 基因组的 rDNA 注释合并到我们的 CHM13 注释中。我们基本上使用相同的 Liftoff 过程(单独进行)将 CHESS 3 的注释映射到黑猩猩基因组上。

实用性和讨论

CHESS 3 目录主要基于 RNA 测序实验的直接证据,特别是来自 54 个体部位和数百名个体的 GTEx 转录本集合 [8]。所有转录本都经过了复杂的比对、组装和过滤过程(参见“构建与内容”,附加文件 2:补充方法),从中删除了数百万个代表噪音的转录片段。

CHESS 3 包含 19,839 个编码蛋白质的基因,共有 99,202 个转录本,平均每个基因约有 5 个转录本。如果我们排除重复的氨基酸序列,由这些转录本产生的不同蛋白质序列数量为 73,767 个(见表 1),涵盖了超过 17,000 个替代翻译起始和终止位点,以及近 24,000 个外显子跳跃和 22,000 个内含子保留事件(附加文件 3:表 S5)。总的来说,包括非编码转录本在内,CHESS 3 在主要染色体上共有 158,377 个转录本。(请注意,GRCh38 还包含几百个替代 scaffold,其中包含数千个注释基因,绝大多数为重复基因,尽管其中一些代表了替代单倍型。为了保持一致性,在此讨论中我们仅统计位于主要染色体上的基因。)

对比分析

相比之下,GENCODE 最新版本(第 41 版)在主要染色体上包含 19,419 个编码蛋白质的基因座,拥有 110,309 个编码蛋白质的转录本,这些转录本编码了 92,968 种不同的蛋白质序列。RefSeq(第 110 版)则包含 19,884 个编码蛋白质的基因,和 129,740 个编码蛋白质的转录本,编码了 88,662 种不同的蛋白质序列(见表 1)。

在 CHESS 3 中,所有编码蛋白质的基因座上的转录本都必须包含有效的开放阅读框(ORF),这些 ORF 对应于这些转录本所编码的蛋白质序列,并在注释文件中表示为 CDS 特征。任何不能产生功能性蛋白质的可变剪接体或异构体都被视为转录噪音,且不会被注释为转录本。RefSeq 也采用了类似的策略,几乎每个编码蛋白质的基因座上的转录本都包含一个有效的 ORF(少数例外)。相比之下,GENCODE 包含数千个在编码蛋白质基因座上的转录本,这些转录本由于各种原因未编码功能性蛋白质,标记为“保留内含子”(33,750 个转录本)或“无义介导衰变”(20,933 个转录本)。

除了去除不包含有效 ORF 的组装转录本之外,作为 CHESS 3 精化过程的一部分,我们还评估了每个基因座上所有蛋白质序列的相对长度。我们假设严重截短的蛋白质极不可能具有功能性,因此编码这些蛋白质的转录本应(除了少数例外)被视为噪音并移除。基于对 RefSeq 中蛋白质长度的分析,我们选择了基因座最长蛋白质的五分之一作为阈值,任何比这个长度短的蛋白质都被视为无功能并从 CHESS 中移除,除非有独立证据证明它具有功能性(参见“构建与内容”,附加文件 2:补充方法)。

需要注意的是,CHESS 3 数据发布还包含一个单独的转录本目录,这些转录本来自 GTEx 数据集,但由于缺乏有效翻译或翻译的蛋白质过短而被过滤掉。这为那些希望研究转录噪音本身的人提供了资源,或者为那些想挖掘可能被重新分类为功能性转录本的人提供了数据。

为了说明不同注释数据库中蛋白质长度的差异,以 Titin(TTN)蛋白为例,它是人类基因组中最长的蛋白质,长度为 35,991 个氨基酸(aa)。GENCODE v41 包含 15 个 Titin 的编码蛋白质的转录本,长度范围从 48 到 35,991aa,其中有 8 个异构体长度短于 1000aa(见表 2)。该基因座上短于 1000aa 的转录本几乎肯定是无功能的,事实上,GENCODE 对这些转录本进行了注释,表明它们在 5′ 端、3′ 端或两者都存在不完整的编码序列。

相较而言,RefSeq(v110)中 Titin 基因的 22 个异构体长度范围为 23,564 到 35,991 个氨基酸(aa),其中一个较短的异构体为 5604aa。该较短的异构体也出现在 GENCODE 中,并且已有实验表明它能够转录和翻译,并展示了其潜在功能 [28]。CHESS 中也包含 8 个异构体,最短的也是 5604aa。值得注意的是,无论是在 RefSeq 还是 CHESS 中,都没有任何长度小于 1000aa 的异构体,而 GENCODE 中的所有较长异构体,包括 5604aa 变体,都同时出现在 RefSeq 和 CHESS 中。

再举一个例子,RefSeq 中最长与最短异构体之间比率最大的蛋白质是 AHNAK,一个 5890aa 的蛋白质,其有一个 149aa 的异构体。实验表明,这个非常短的异构体在肌肉中发挥自我调节作用 [29],因此尽管它非常短,但有独立的证据支持其功能性。RefSeq 和 CHESS 中仅包含这个短异构体和 5890aa 的长异构体,而 GENCODE 中则包含另外六个异构体,长度范围从 85 到 149aa,此外还有 5890aa 的长异构体。只有 149aa 和 5890aa 的异构体有实验证据支持。

在 GENCODE 中许多注释的转录本中可以看到极端的长度差异,我们发现有 4089 个编码蛋白质的基因中有一个异构体长度小于最长异构体的 10%,有 7269 个编码蛋白质的基因中有一个异构体长度小于最长异构体的 20%。相比之下,RefSeq 和 CHESS 中异构体长度变化如此剧烈的编码蛋白质基因要少得多。RefSeq 中只有 79 个基因的最长异构体至少是最短异构体的 10 倍,333 个基因的最长异构体至少是最短异构体的 5 倍。CHESS 中仅有 4 个这样的基因:Titin 和 AHNAK 以及两个来自 MANE 数据库的基因(IQSEC2 和 SYNE1),这些基因标记为具有临床意义的特殊异构体。

另一个值得注意的点是,RefSeq 中最短的蛋白质序列(RPL41,核糖体蛋白 L41)为 25aa,而 GENCODE 中包含 1259 个短于 25aa 的蛋白质异构体,其中包括 20 个长度仅为 1aa 的 CDS 特征注释。CHESS 中仅包含 14 个短于 25aa 的蛋白质异构体。

CHESS 中的 MANE 转录本的纳入

RefSeq 和 GENCODE 的创建者发布了一个名为 MANE(Matched Annotation between NCBI and EMBL-EBI)的高质量编码蛋白质的转录本集合,称其为人类基因注释的“通用标准” [10]。MANE 的目标是为每个编码蛋白质的基因注释一个 RefSeq 和 GENCODE 完全一致的转录本,包括转录的 5′ 和 3′ 边界、所有外显子和内含子边界以及编码序列。当前版本的 MANE(v1.0)包含 19,062 个蛋白质和 19,120 个转录本,其中额外的 58 个转录本因其临床意义而被纳入。MANE 不包括任何非编码基因。

由于 MANE 具有高质量和稳定性,我们希望确保 CHESS 3 中包含每一个 MANE 转录本。在将我们几乎最终的转录本集与 MANE 进行比较后,我们发现几乎所有 MANE 转录本都与 CHESS 中的某一个转录本几乎完全匹配,尽管有少量转录本在转录起始和终止的边界上存在差异。随后我们调整了 5′ 和 3′ 边界,以确保 CHESS 中的一个转录本能够完全匹配所有 19,120 个 MANE 转录本,毫无例外。

CHESS 2 和 CHESS 3 中的新编码蛋白质基因

我们之前报告 [5],CHESS 数据库(v2.2)中有 224 个全新的蛋白质,这些蛋白质在 RefSeq 和 GENCODE 中完全缺失。我们调查了这两个数据库的最新版本(分别为 v110 和 v41),发现许多之前的全新编码蛋白质基因现在已包含在其他数据集中:53 个在 GENCODE 中,23 个在 RefSeq 中,5 个在 MANE 中(详见表 3)。在当前报告中描述的新方法下,我们重新组装了之前报告的 185 个基因,其中大多数基因被我们新的、更严格的标准过滤掉了。当前版本的数据集中仅包含了 CHESS 2 数据集中特有的 224 个基因中的 47 个。

CHESS 3 中的每一个编码蛋白质基因座都与 RefSeq 或 GENCODE 中的至少一个转录本匹配或重叠;然而,每个数据库中都有一些独特的编码蛋白质转录本。如果所有内含子都精确匹配,我们便认为两个转录本是匹配的;根据这一标准,CHESS 3 中 99,201 个编码蛋白质的转录本中,有 14,863 个是 CHESS 独有的(见图 2)。其中另有 46,585 个转录本是这三个数据库共有的,而 32,882 个仅在 CHESS 和 RefSeq 中共享,4871 个仅在 CHESS 和 GENCODE 中共享。RefSeq 和 GENCODE 共享 658 个编码蛋白质的转录本,这些转录本不在 CHESS 中。

与 RefSeq 和 GENCODE 的比较

在 CHESS 的早期版本中,我们有意决定将 RefSeq 和 GENCODE 中所有编码蛋白质的基因座(尽管并非所有转录本)都包含在 CHESS 数据库中。然而,经过更仔细的审查,我们发现其中一些基因很可能并不是真正的编码蛋白质基因,而是这些数据库早期版本中的遗留注释。多年来,RefSeq 和 GENCODE 都删除了许多基因,但一些证据非常薄弱的基因仍然存在。

我们将 CHESS 3 与所有 RefSeq(v110)编码蛋白质的基因进行了比较,并确定有 46 个基因座未包含在 CHESS 中。所有这些基因的名称都以 "LOC" 开头,表明其功能未知,每个基因都由 RefSeq 注释为 “XM” 标记,这意味着它是自动注释(与 "NM" 基因相对,后者是经过人工审阅的)。其中许多基因位于其他基因的内含子区域内;例如,LOC107984876(XM_047434996.1)位于 16 号染色体上编码蛋白质的 LMF1 基因的外显子 4 内部,且其假定序列的搜索结果显示除灵长类外没有匹配。这些证据,加上我们没有在 GTEx 数据中组装这些基因的事实,使我们决定不将它们添加到 CHESS 3 中。需要注意的是,CHESS 3 有意包含了所有带有 NM 标记的 RefSeq 转录本,而低置信度的 XM 转录本与目录中的所有其他异构体一样,经过了相同的过滤标准(附加文件 1:图 S2)。

总体而言,CHESS、RefSeq 和 GENCODE 之间的共识度比 2018 年 CHESS 之前主要发布(2.0 版)时要高得多。图 2 展示了三个数据库之间编码蛋白质的转录本的重叠情况(更详细的比较见附加文件 1:图 S3)。与 2018 年的 CHESS(v2.2)、GENCODE(v28)和 RefSeq(v108)版本相比,三个数据库之间共享的转录本数量显著增加,从 36,943 增加到 46,585。尽管依然很高,三个数据库中任何一个数据库独有的转录本数量从 189,184 减少到 122,614,主要是由于 CHESS 中编码蛋白质的转录本数量的减少。

CHESS 3 的蛋白质结构预测

我们使用了 AlphaFold2 [19] 和 ColabFold [21] 程序预测了 CHESS 3 中几乎所有蛋白质异构体的三维结构,除了一些最大的蛋白质异构体。CHESS 3 因此成为目前唯一一个为大多数蛋白质提供结构预测的人类注释数据库。具体而言,我们使用 ColabFold(版本 d6b06)对 CHESS 3 的初步版本中的超过 230,000 个转录本进行了结构预测,该版本是最终数据库的扩展版本。这些转录本包括了 CHESS 3 中所有长度小于 1000aa 的蛋白质。随后,我们从 AlphaFold Protein Structure Database v3 [30] 中收集了与 CHESS 3 中异构体完全匹配的较长蛋白质的预测结果。这为 CHESS 3 增加了 3302 个结构,其中包括一些长达 2700aa 的异构体的结构预测。

isoform.io v1.2 数据库包含了 CHESS 3 中 91,589 个转录本的结构,这些转录本代表了 19,569 个编码蛋白质的基因座上的 70,158 个独特异构体。总的来说,CHESS 3 中超过 95% 的蛋白质都有结构预测,覆盖了超过 98% 的人类编码蛋白质基因座。所有蛋白质结构可以在 isoform.io 网站上免费搜索或下载,并且每个结构都包含与 CHESS、RefSeq、GENCODE 和 MANE 的交叉引用。

我们对 CHESS 3 中 14,683 个独有的编码蛋白质的转录本进行了评估,以识别那些具有独特蛋白质序列并且表达量较高的转录本。我们将搜索范围限制为具有多个外显子的编码蛋白质基因,并且这些基因的编码序列与其他注释的蛋白质序列不相同。我们还要求这些新转录本在所有 GTEx 样本中的累积 TPM(每百万转录本数)超过 1000。最重要的是,我们寻找那些新蛋白质在所有样本中的总表达量占比超过 50% 的转录本。这些标准筛选出了 261 个具有新蛋白质异构体的基因,其中两个例子在图 3 中展示。

在图 3A 中展示的 TMEM11 的新异构体略短于规范的 MANE 蛋白质,这是由于额外的外显子导致起始密码子向下游移动。ColabFold 给新 CHESS 蛋白质的 pLDDT 分数为 78.6,相比之下,较长的 MANE 蛋白质的分数为 68.3,后者的低分主要是因为其含有无结构的环。这表明新异构体可能具有更高的功能性,但要回答这一问题仍需进行有针对性的实验。

图 3B 展示了 GP6 基因的三个异构体的外显子-内含子结构,其中 MANE 异构体的结构得分明显低于另外两个 CHESS 异构体。MANE 转录本和 CHS.27581.2 之间的唯一差异是最后一个内含子中的 4 个碱基移位。较短的内含子(MANE)生成的蛋白质比 CHS.27581.2 的蛋白质长 281 个氨基酸(620aa 对比 339aa),但 AlphaFold2 的结果显示,额外的氨基酸序列完全无结构,因此导致 pLDDT 分数显著降低,仅为 49.3,而 CHS.27581.2 的蛋白质得分为 74.5。此外,Sashimi 图显示,CHS.27581.2 的较长内含子在剪接读段中具有 13 倍的深度支持。值得注意的是,RefSeq 和 GENCODE 都包含与 CHS.27581.1 和 CHS.27581.2 相匹配的异构体。

261 个新发现的、高表达的编码蛋白质的转录本的完整列表,以及与图 3 类似的 Sashimi 图,可以在附加文件 3:表 S1 中找到。

非编码基因和转录本

CHESS 3 包含 17,623 个长链非编码 RNA(lncRNA)基因,覆盖 34,708 个转录本,同时还有许多其他类型的非编码转录本(如表 4 所示)。相比之下,RefSeq 包含 17,793 个 lncRNA,包含 29,048 个转录本,而 GENCODE 包含 19,095 个 lncRNA 基因座和 53,216 个转录本,远多于 CHESS 和 RefSeq。

近年来,已报道的 RNA 基因数量大幅增加,诸如 NONCODE [31]、LNCipedia [32]、lncRNAKB [33] 和 RNAcentral [34] 等目录包含了大量的基因。例如,截至 2021 年中期,NONCODE V6 包含 173,112 个 lncRNA,LNCipedia 包含 127,802 个,lncRNAKB 包含 77,199 个 lncRNA。这些数据库中的大多数 lncRNA 主要是通过计算预测的,具体有多少是真正的基因而不是转录噪音还尚不清楚。正如我们在最初的 CHESS 描述中提到的 [5],初步从 GTEx 数据中组装的转录本中约有 98% 似乎是噪音,其中大多数转录本的表达水平非常低。最近也有科学家提出,大多数 lncRNA 可能是无功能的,背后有多种科学依据 [35]。在 CHESS 3 中,我们尝试使用比蛋白质编码基因更严格的标准来纳入 lncRNA,但由于 lncRNA 没有开放阅读框(ORF),这使得很难通过其他物种中的序列保守性来提高我们对 lncRNA 是否具有功能的信心。

跨物种的内含子保守性

为了评估注释的一致性并结合进化保守性,我们使用了 30 个物种的比对 [36],其中包括 27 种灵长类(包括人类),以及小鼠、狗和犰狳。对于 CHESS、RefSeq、GENCODE 和 MANE 中的每个内含子,我们计算了每个内含子两端的共识二核苷酸(GT 和 AG)在多少物种中得到了保留。

正如图 4 所示,蛋白质编码基因中的绝大多数内含子在所有或几乎所有 30 个物种中都是保守的。四个注释数据库的保守性曲线非常相似。然而,lncRNA 的保守性与蛋白质编码基因有显著不同,至少在两个方面:第一,极少数内含子在所有 30 个物种中都得到了保守,最多的内含子出现在 20-21 个物种中;第二,分布显示在 4-7 个物种中得到保守的内含子有一个明显的次峰。接下来,我们计算了次峰中的内含子在哪些物种中最常保守。

表5显示了保存这些内含子最频繁的十个物种,其中前五个物种占据了大部分保守的内含子。值得注意的是,这些 lncRNA 内含子大多数在类人猿中得以保留,而在该进化支系之外,保守内含子的数量急剧下降。在 RefSeq 和 GENCODE 数据库中的 lncRNA 也观察到了类似的模式。

CHESS 在 CHM13 上的注释
尽管 GRCh38 几乎普遍被用作人类参考基因组,最近发布的 CHM13 基因组却是首个真正完整的人类基因组,它增加了近 200 兆碱基(Mbp)的 DNA,关闭了 900 多个缺口,并在初步注释的基础上添加了数千个新的转录本 [1]。如上所述,CHM13 的注释基于 GENCODE v35,作者报告了 140 个新的蛋白质编码基因,扣除 CHM13 中缺失的基因后,净增 79 个蛋白质编码基因(包括 GRCh38 中因错误重复而产生的 23 个蛋白质编码基因)。

为了生成更准确的人类基因数量,并为未来支持 CHM13 作为人类参考基因组提供更好的依据,我们使用 Liftoff 工具 [3] 将 CHESS 3 的所有转录本映射到 CHM13 上,并使用例行程序查找额外的基因副本。最终的注释汇总在附加文件3:表 S2 中,总共包含 43,773 个基因和 161,410 个转录本,其中包括 2510 个额外的基因副本,其中 129 个是蛋白质编码基因。在 CHM13 的注释中,19,968 个基因是蛋白质编码基因,包含 99,410 个转录本。

CHESS 3 中有 69 个蛋白质编码基因未能从 GRCh38 映射到 CHM13。进一步调查显示,这些基因都位于 GRCh38 中定义的片段重复区域(通常具有超过 90% 的相似性)内 [37]。这表明这些基因代表了 CHM13 基因组中相比 GRCh38 具有更少基因拷贝的情况。

结论

CHESS 数据库使用了数千个 RNA 测序实验来组装人类所有转录本的完整图谱,每个转录本都有其表达水平的直接实验证据。CHESS 3.0 通过引入 RefSeq、GENCODE 和 MANE 数据库中经过精心注释的基因,进一步扩展了这一集合,形成了一个更完整的基因表示。本次发布的 CHESS 强调了比以往更严格的注释方法,尤其注重移除那些可能代表非功能性异构体的转录本,因为这些转录本如果被提供给自动化基因组分析程序,可能会阻碍后续分析。结果是,尽管 CHESS 3.0 中编码蛋白质的基因数量与 CHESS 2.0 相差不大,但转录本的数量不到 CHESS 2.0 的一半。CHESS 3.0 的一个独特功能是为 98% 以上的编码蛋白质基因提供了完整的三维蛋白质结构预测,用户可以直接查询这些蛋白质的有序性。另一个新功能是,CHESS 3.0 的基因不仅在较旧的 GRCh38 人类参考基因组上可用,还在新发布的、完整的 CHM13 基因组上提供,该基因组比 GRCh38 多了大约 2500 个基因。尽管 CHESS 和其他主要数据库中的编码蛋白质基因数量趋于一致,但转录本的数量仍然差异很大,在我们可能获得所有人类基因的最终图谱之前,仍需进行大量工作。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值