一种基于子序列的亚细胞定位预测的深度学习框架(DeepLncLoc: a deep learning frame work for long non-coding RNA subcellular)

本文提出了一种新的深度学习框架DeepLncLoc,用于预测长链非编码RNA(lncRNA)的亚细胞定位。现有方法使用k-mer特征,但会丢失序列顺序信息。DeepLncLoc引入子序列嵌入,保留了序列顺序,通过文本卷积神经网络学习高级特征。实验表明,DeepLncLoc在预测lncRNA亚细胞定位方面优于传统机器学习模型和现有预测器。
摘要由CSDN通过智能技术生成

一种基于长链非编码RNA子序列的亚细胞定位预测的深度学习框架

期刊:biorxiv
文章地址:https://www.biorxiv.org/content/10.1101/2021.03.13.435245v1.abstract

摘要

长链非编码RNA (lncrna)是一类含有200多个核苷酸的RNA分子。越来越多的证据表明,lncrna的亚细胞定位可以为其生物学功能提供有价值的见解。现有的预测lncRNA亚细胞定位的计算方法使用k-mer特征编码lncRNA序列。然而,仅使用k-mer特征会丢失序列顺序信息。因此,:我们提出了一个深度学习框架DeepLncLoc来预测lncRNA亚细胞定位。在DeepLncLoc中,我们引入了一种新的子序列嵌入方法,它保留了lncRNA序列的顺序信息。子序列嵌入方法首先将序列划分为一些连续的子序列,然后提取每个子序列的模式最后将这些模式进行组合,得到lncRNA序列的完整表示。然后,利用文本卷积神经网络学习高级特征并执行预测任务。与传统具有k-mer特征的机器学习模型和现有预测器相比,DeepLncLoc取得了更好的性能,说明DeepLncLoc可以有效预测lncRNA亚细胞定位。我们的研究不仅为预测lncRNA亚细胞定位提供了一种新的计算模型,而且提供了一种新的子序列嵌入方法,有望应用于其他基于序列的预测任务

介绍

长链非编码RNA (lncrna)是一种大分子RNA(超过200个核苷酸),从DNA转录但不翻译成蛋白质(Consortium, 2007;陆等,2018)。lncrna在基因表达调控、可变剪接、核组织、基因组印迹等多种生物过程中发挥着重要作用(Moran, et al., 2012)。例如,lncrna可以与dna、rna和蛋白质结合,然后通过这些相互作用来执行其功能(Esteller, 2011)。lncrna可以作为“miRNA海绵”,调节miRNA水平,进而影响miRNA靶蛋白的表达(DiStefano, 2018)。lncrna可以在特定刺激下调控转录活性或通路(Wang and Chang, 2011)。由于分子功能的复杂性,lncrna相关研究受到了广泛关注(Lu, et al., 2019)。

越来越多的证据表明,lncrna的亚细胞定位可以为其功能提供有价值的见解(Carlevaro-Fita和Johnson, 2019)。例如,位于细胞核中的lncRNA“XIST”与核基质因子hnRNPU相互作用,调节核结构和反染色体相互作用(Hacisuleyman, et al., 2014)。LncRNA“lincRNA-p21”位于细胞质中,在HeLa细胞中调控JUNB和CTNNB1的翻译(Yoon, et al., 2012)。LncRNA“ZFAS1”位于核糖体,调控来自核糖体复合体的蛋白质的mrna编码(Hansji, et al., 2016)。因此,lncRNA亚细胞定位的识别对于了解lncRNA的功能非常重要(Voit, et al., 2015)。

最近,一些大型的rna相关亚细胞定位数据库被发布。Zhang等人发布了数据库rnallocator (Zhang, et al., 2016),收集不同种类rna的亚细胞定位,其中包含65个物种的超过23100个rna,有42个亚细胞定位。Mas Ponte等开发了一个名为LncATLAS的数据库,用于显示lncrna的亚细胞定位(Mas-Ponte, et al., 2017)。Wen等创建了lncRNA亚细胞定位数据库lncSLdb (Wen, et al., 2018),收集了来自3个物种(人、小鼠和果蝇)的14973个lncRNA亚细胞定位信息。

然而,目前对lncRNA亚细胞定位的计算预测因子还很少。据我们所知,
第一个预测器是lncLocator (Cao, et al., 2018)。LncLocator使用堆叠式自动编码器提取的4 mer特征和高级特征,将这两种特征分别送入两种分类器(支持向量机和随机森林)。然后lncLocator使用集成策略将不同分类器的结果组合起来,得到最终的预测结果。在他们的训练过程中,lncLocator使用了一种监督过采样算法来平衡不同类的比例。

第二个预测工具是iLoc-lncRNA (Su, et al., 2018)。iLoc-lncRNA 使用8mer特征编码lncRNA序列。考虑到8-mer特征维度过大,iLoc-lncRNA采用基于二项分布的特征选择方法来选择最优的特征。然后iLoc-lncRNA将最优特征输入支持向量机(SVM),得到预测结果

第三个预测因子是DeepLncRNA (Gudenas和Wang, 2018)。DeepLncRNA使用2,3,4,5 -mer特征编码lncRNA序列,并添加额外的特征RNA–binding motifs and genomic loci**(rna结合基序**和基因组位点)。然后将组合特征输入神经网络,得到最终的预测结果。尽管这些计算预测器实现了不错的性能,但仍然可以进行一些改进。将原始lncRNA序列编码成鉴别特征在开发机器学习模型中非常重要。这些预测因子的缺陷在于仅使用k-mer特征来编码原始lncRNA序列。显然,仅使用k-mer特征无法保持原始lncRNA序列的序列顺序信息。

为了克服这一局限性,我们开发了DeepLncLoc,一种新的基于深度学习的lncrna亚细胞定位预测器。在预测器中,我们提出了一种新的特征嵌入方法,保留了lncRNA序列的顺序信息(详见“2.3节”)。新的特征嵌入方法的主要思想是利用RNA的子序列嵌入组合来编码完整的RNA序列。在DeepLncLoc中,我们将序列分成若干连续的子序列,然后利用平均池化层提取每个子序列的模式;last结合这些模式,获得了lncRNA序列的完整表示。在获得完整表征后,利用文本卷积神经网络(textCNN)学习高级特征并执行预测任务。与以往研究中传统的具有k-mer特征的机器学习模型不同,DeepLncLoc具有两个优势==:
1)利用新的子序列嵌入方法,输入的lncRNA序列保留了序列顺序信息;
2)textCNN具有更强

  • 0
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值