论文解读:《LncReader:使用多头自注意机制识别双功能长链非编码 RNA》

文章地址:https://pubmed.ncbi.nlm.nih.gov/36575567/
DOI:https://doi.org/10.1093/bib/bbac579
期刊:BRIEFINGS IN BIOINFORMATICS
2022年影响因子/JCR分区:13.994/Q2
发布时间:2023年1月24日
Github:https://github.com/ShellyCoder/LncReader

1.文章概述

具有蛋白质编码和非编码功能的长链非编码核糖核酸(RNA;LncRNA)被称为“双功能 lncRNA”。最近,双功能 lncRNA 已被确定参与各种基本细胞过程。然而,除了耗时且特定于细胞类型的实验外,几乎没有用于预测双功能 lncRNA 的计算机方法。所以作者开发了一个具有多头自注意机制的深度学习模型:LncReader,用来识别双功能 lncRNA。实验结果表明,与使用之前报告的 cncRNAdb 项目的基准数据集的各种经典机器学习方法相比,LncReader 显示出多种优势。此外,为了获得用于稳健测试的独立内部数据集,质谱蛋白质组学结合 RNA-seq 和 Ribo-seq 被应用于四种白血病细胞系,这进一步证实了 LncReader 与其他工具相比实现了最佳性能。因此,LncReader 是一种准确实用的工具,可实现快速双功能 lncRNA 识别。

2.关键点

  1. LncReader 由改进的 transformer 架构构建,可以根据其序列、物理化学和二级结构特征忠实地预测潜在的双功能 lncRNA。
  2. 基准数据集和内部数据集表明,与各种经典机器学习方法相比,LncReader 显示出多重优势。
  3. LncReader 的跨物种预测能力扩展了这种双功能lncRNA 预测工具的应用,从而促进了对相关先验知识较少的其他物种的研究。

3.背景

通常,大多数RNA根据其编码能力可以专门定义为mRNA或ncRNA。自从在动物、植物和细菌中发现了一组不寻常的RNA,它们既可以作为蛋白质编码 RNA,也可以作为非编码 RNA,界限变得如此模糊。这些 RNA 已被定性为“双功能 RNA”、“二元功能 RNA(双功能 RNA)” 或“cncRNA(自 2015 年以来,该术语被提出为具有编码和非编码功能的 RNA)”。重要的是,根据作者之前报道的【cncRNAdb: a manually curated resource of experimentally supported RNAs with both protein-coding and noncoding function】,翻译的 lncRNA 已被认为是 cncRNA 的主体,最近的研究表明,lncRNA 编码的微肽可能在生理学和病理学中发挥关键作用。首批被鉴定为双重功能的 lncRNA 之一是类固醇 RNA 激活剂 (SRA),它作为调节 RNA 介导真核基因表达的反式激活并编码高度保守的内源性蛋白质。类似地,lncRNA-Six1 作为一种双重功能 lncRNA 调节 Six1 的表达,既作为顺式作用元件又编码微肽
双功能 lncRNA 最近引起了相当大的关注,通过各种实验方法收集了大量数据,但目前没有可用于识别双功能 lncRNA 的算法。作者基于之前的研究 【cncRNAdb】构建了双功能 lncRNA 的机器学习数据集。同时,注意力模型在自然语言处理领域被提出后,也被广泛应用于生物信息学领域。此外,还有研究发现单头注意力机制的预测性能比单注意力架构差。因此,假设采用集成思想的多头自注意力机制可以弥补单头模型的缺点,这已在作者之前发表的研究【DM3Loc: multi-label mRNA subcellular localization prediction and analysis based on multi-head self-attention mechanism】中得到证实。为此,作者开发了 LncReader,这是一种具有多头自注意力机制的深度学习模型,可根据其序列、物理化学和二级结构特征识别双重功能 lncRNA。不仅使用基准数据集,还使用新生成的内部数据集,这些数据集结合了从四种白血病细胞系获得的 Ribo-seq、MS 蛋白质组学和 RNA-seq 数据,旨在探索 LncReader 是否提供了一种准确实用的工具来识别双重功能lncRNA。考虑到有许多先进的研究专注于 RNA 的预测和分类,例如 circDeep 和 ncRDeep,作者还将 CNN,RNN 和 LSTM 包括在比较分析中以评估 LncReader 的性能。

4.数据

4.1 基准数据集

在本研究中,作者使用 cncRNAdb 建立了双功能 lncRNA 的基准数据集。当前版本的 cncRNAdb 记录了大约 2600 个人工整理的 cncRNA 条目和实验证据,包括 20 多个物种的 2000 多个 RNA(超过 1300 个翻译的 ncRNA 和超过 600 个未翻译的 mRNA)。基准数据集是根据以下过程生成的:
(1)总共有 1727 个人工翻译的 lncRNA 条目都是从 cncRNAdb 获得的。
(2)将提取条目中具有多个条目的具有相同基因登录的一些lncRNAs合并。在整合和映射肽后,选择了 1596 个 lncRNA 转录本 FASTA 数据。
(3)通过 CD-HIT-EST 删除具有 90% 序列相似性截止值的冗余序列以构建非冗余数据集。然后,1167个lncRNA转录本FASTA数据被认为是正样本。
(4)与之前的研究类似,作者从 Ensembl 数据库(ftp.ensembl.org/pub/release104/fasta/homo_sapiens/ncrna/Homo_sapiens.GRCh38.ncrna.fa)去除相应gff3文件中没有用Havana注释的lncRNA序列,然后排除正样本的序列和通过CD-HIT-EST截断90%序列相似度的冗余序列。由于带有真实标签的注释数据集有限,剩余的 35 919 个 lncRNA 序列被认为是负样本。
(5)对于性能评估,使用结合正样本和负样本的数据集构建 5 折交叉验证数据集。
最后,作者构建了一个包含 37 086 个 lncRNA 的基准数据集,这些 lncRNA 用正标签或负标签进行了注释。所有示例都简单地显示了三个常用功能(图 1A 和 B)。在这里插入图片描述

4.2 细胞培养

以下细胞系购自 ATCC,并在含有 10% FBS (Hyclone, Logan, Utah) 的相应培养基中于 37°C、5% CO2 的细胞培养箱中培养:MOLM13 (DMEM)、THP-1 (RPMI1640) , 2-巯基乙醇至终浓度为 0.05 mM), HL60 (IMDM), K562 (IMDM)。根据 ATCC 细胞系验证测试的建议,测试细胞系是否存在支原体。

4.3 RNA 测序、核糖体分析和 LC-MS

作者在转录组学、翻译组学和蛋白质组学中对培养的细胞系进行采样和测序。首先,提取带有polyA尾的RNA,并在Illumina NovaSeq 6000平台上进行双端深度测序。然后使用 ART seq™ 核糖体分析试剂盒(Epicentre,RPHMR12126)生成核糖体保护片段的测序文库。最后,将 500 μg 的每个样品等分用于后续的蛋白质消化,并应用液相色谱串联质谱法 (LC-MS)。所有组学实验的详细信息都记录在补充材料中。

4.4 独立数据集的生物信息学分析

使用具有标准过滤要求的 fastp 对来自 RNA-seq 的所有配对末端读数进行修剪以适应接头序列。hg38 参考基因组 (GRCh38) 和基因注释文件(GTF 格式)从 GENCODE Release 28 [36] 下载。使用默认设置的 HISAT2(版本 2.2.1)将读数映射到 hg38 基因组。使用 StringTie(版本 2.1.5)估计相对于转录本的表达水平。通过这些程序,确定了每个细胞系中表达的 RNA 转录本。
接下来,作者在先前的研究中提出定制了蛋白质序列数据库,用于帮助根据管道识别新肽。详细而言,收集了所有 lncRNA 转录本序列并确定了可能最长的转录本ORF(open reading frames);随后,使用标准密码子表翻译了13 013个氨基酸序列。
然后,整合了来自 UniProt 的 202195 个经过验证的人类蛋白质序列和 13013 个新的候选肽序列,构建了一个定制的蛋白质序列数据库。MaxQuant用于根据具有默认参数的蛋白质序列数据库搜索新肽。如果将多个检测到的肽分配给一个 lncRNA 编码的候选者,则相应的转录物被识别为潜在的双功能 lncRNA。
在处理 Ribo-seq 数据期间,使用 trim_galore (v0.6.6) 对三端适配器的所有原始序列读取进行了修剪,并修剪了低质量序列。然后使用 bowtie2 (v2.4.2) 删除映射到参考人类 rRNA 或 tRNA 的保留读数,并使用 STAR (v2.7.8a) 将剩余读数与人类参考基因组 (GENCODE Release 28) 对齐。使用 StringTie(版本 2.1.5)估计相对于转录本的表达水平。如果一个 lncRNA 有多个 reads,则相应的转录本被识别为潜在的双功能 lncRNA。
最后,作者结合了转录组、翻译组和蛋白质组各自的结果,确定了 13 个潜在的双功能 lncRNA,这些 lncRNA 构建了内部数据集。作者观察到没有 lncRNA 在基准数据集和内部数据集中共存,这表明使用内部数据集测试 LncReader 性能的可信度很高。

5.方法

5.1 特征提取

在这项研究中,作者分别提取了 LncRNA在序列信息、物理化学性质和 RNA 二级结构上的特征。
ORF长度是识别编码能力的经典衡量标准。作者将具有起始密码子和终止密码子的最长 ORF 的长度视为一个转录本的 ORF 长度。 ORF coverage是一个 ORF 特征,它与输入 RNA 序列的长度相关。 Fickett 分数是一个根据核苷酸组成和密码子使用偏好的组合效应区分蛋白质编码 RNA 和 ncRNA简单的语言特征。 Hexamer score是一个对数似然比,它是根据编码 RNA 和非编码 RNA 的分布用一个序列的概率计算出来的。 CTD 特征是一组 30 个子特征,同时考虑了 RNA 基频特征和序列全局特征,并能够捕获重要的组合特征,如 GC等。pI)是揭示 lncRNA 和蛋白质编码转录物之间物理化学差异的重要指标。伪电子-离子相互作用 (EIIP) 是物理化学性质的一种特征,它直接外推每个 RNA 碱基的电子,其偏差小于 pI。最小自由能 (MFE) 是 ViennaRNA Package 程序 RNAfold 中广泛认可的 RNA 二级结构指标。
在这里插入图片描述
最后,LncReader 使用了三种不同维度的特征,涉及到上述七种不同的特征概念。根据不同算法的原理,提取序列的特征,特征向量的维数为49。

5.2 模型框架

LncReader 由具有多头自注意力机制的改进型 transformer 架构构建。实际上,self-attention 机制允许输入与自身交互并找出应该更多关注哪个元素。 Transformer 是一种自然语言处理深度学习模型,由多头自注意力层、层归一化和前馈神经网络组成。已经证明,单独使用注意力机制也可以在各种任务中达到高性能。因此,具有多头注意力机制的 transformer 编码器块是建立 LncReader 模型的基本结构。
通过使用提取的工具,可以将变长序列表示为固定的 49 个特征向量。在这项工作中,作者将固定向量处理为长度为 49 的序列,但嵌入大小为 1。LncReader 的第一层是映射特征 fi ∈ R, i = 1, … 49的线性投影层,从R空间到高维空间,fimap∈Rd,这个投影类似于嵌入层。在LncReader模型中,扩展后的嵌入大小为256。多头selfattention层由8个头组成,256个模型维度。该层的输出添加其输入作为最终输出以减轻梯度消失,并在其后添加归一化层。前馈神经网络由两个全连接层和一个激活函数组成。输出功能的两个全连接层的数目分别为 1024 和 256。在前馈中使用的激活函数是 GELU。在一个 transformer 编码器块中添加了两个 dropout 层,以防止过度拟合,并增强 LncReader 的鲁棒性。 dropout的一个位置是selfattention机制中的softmax函数之后,D1 = Dropout(A),其中A是上面提到的attention score矩阵。另一个位置在前馈网络之后,D2 = Dropout(FeedForward(Xi))。受集成方法的启发,不仅在模型中简单地堆叠了 transformer 编码器,而且还扩展了模型的宽度,这意味着一层中有 m 个并行的 transformer 编码器。并行转换器层 (PTL) 可以同时从 m 个独立的转换器编码器生成不同的上下文表示。 PTL 的输出 OPTL 是来自 m 个独立的并行 transformer 编码器的上下文表示的平均值。作者堆叠两个 PTL 来组成PTL组。我们使用跨层参数共享作为提高参数效率的一种方式,这是之前在 ALBERT 中提出的,用于减少模型中的冗余参数。在 PTL 组中共享所有参数 T 次,这意味着 LncReader 的深度(隐藏 PTL 的数量)为 NHiddenLayers = 2 × T,其中 T = 1。通过使用这种技术,LncReader 具有合适的参数大小并且可以有效地训练。
在这里插入图片描述

5.3 不平衡数据处理

训练数据集中有 1167 个正样本和 35919 个负样本。为了平衡数据集,作者对正样本使用了上采样。使用 python 包 numpy 中的 random.choice 函数将正数据集从 1167 缩放到 35919。

5.4 其他机器学习模型构建

作者将 LncReader 与经典机器学习方法进行了比较,包括LR、SVM、BRF 和 DNN。对于DNN 模型包含四个隐藏层,分别有 256、512、256 和 128 个神经元,卷积神经网络由六层组成,它由两个 ReLU 激活层、两个内核大小为 3 的卷积层、一个输入通道和一个值为 256 的输出通道以及两个内核大小为 3、步长为 2 的池化层组成,还配置了两层分别具有 256 和 128 个神经元的 LSTM 和 RNN 神经网络。

6.结果

6.1 LncReader与传统机器学习分类器的比较

使用 5 折交叉验证数据来比较 LncReader 与一些经典机器学习方法的性能,包括逻辑回归、SVM、BRF、DNN、CNN、RNN 和 LSTM。为了进行公正的比较,我们使用相同的数据集来训练和测试这五个模型。 AUC、AUPR、F1score 和 MCC 作为性能评估的多个指标。
在这里插入图片描述

6.2 LncReader在独立内部数据集上的应用与评估

尽管去冗余后的 5 折交叉验证数据集具有一定的独立性,但由于数据源偏差,模型仍有可能出现过拟合。为了进一步检验基于 cncRNAdb 数据集训练的 LncReader 预测模型的性能,作者通过并行分析生成了独立的内部数据集,包括 RNA-seq、Ribo-seq 和 MS,以使用四种方法识别双功能 lncRNA不同的白血病细胞系(图 3A )。
在这里插入图片描述
在这里插入图片描述

6.3 LncReader 跨物种评价

由于人类以外物种的数据很少,因此有必要评估我们的模型在不同物种中的表现。用于跨物种分析的数据集包括两个物种(小家鼠和黑腹果蝇)。
在这里插入图片描述

6.4 RNA 特征对 LncReader 的资源成本和性能影响

作者评估了排除物理化学性质和 RNA 二级结构对模型性能的影响。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值