基于深度学习的DNA:RNA三联体形成潜能预测

Deep learning based DNA:RNA triplex forming potential prediction

目录

1.摘要

2.背景

3.实现

1.数据

1.三重lncRNA预测数据集

2.三重DNA位点潜在预测数据集

2.特征提取

 3.模型构造

4.模型评估

4.结果

1.TriplexFPP的初步培训

 2.三重lncRNA预测的评价

3.三链DNA位点电位预测的评价

4.TriplexFPP模型解释

5.顺式/反式三链形成lncRNA的探索

5.讨论

6.结论


Deep learning based DNA:RNA triplex forming potential prediction

1.摘要

长非编码RNA(lncRNAs)可以通过与DNA形成三联体发挥作用。目前预测三倍体形成的方法主要是根据基本配对规则进行数理统计。然而,这些方法有两个主要局限性:(1)它们识别了大量形成三倍体的lncRNAs,但经实验验证的形成三倍体的lncRNAs数量有限,这表明在实践中可能并非所有的lncRNAs都能形成三倍体;(2)他们的预测只考虑了理论关系,而缺乏实验验证数据的特征。

在这项工作中,我们开发了一个名为TriplexFPP(Triplex Forming Potential Prediction)的集成程序,这是DNA:RNA三联体预测中的第一个机器学习模型。TriplexFPP根据实验验证的数据预测最有可能形成三链的lncRNAs和DNA位点,其中高级特征由卷积神经网络学习。在五倍交叉验证中,阈值为0.8的去除冗余三联体形成lncRNA数据集的ROC曲线和PRC曲线下面积的平均值是0.9649和0.9996,这两个三链DNA位点预测值是0.8705和0.9671。此外,我们还简要总结了三联体lncRNAs的顺式和反式靶向作用。

TriplexFPP能够预测所有lncRNAs中最有可能形成三链的lncRNAs,这些lncRNAs具有计算定义的三链形成能力和DNA位点成为三链的潜力。它可能为lncRNA功能的探索提供见解。

2.背景

测序技术的进步使得大量长非编码RNA(lncRNAs)的发现成为可能。lncRNAs可以作为信号、诱饵、引导和支架来执行诸如染色质状态调节和基因表达调节等功能。它们通过与DNA、蛋白质和其他RNA的相互作用发挥作用,协调调节蛋白质,定位到目标位点,形成三维(3D)核组织[1-3],等等。

lncRNA与DNA相互作用的一种方式是形成三联体结构[4]。三联体是一种直接的RNA-DNA相互作用机制,它是在正向或反向Hoogsteen碱基配对规则下,通过RNA位点与双链DNA中富含嘌呤的链结合而形成的。

尽管高通量技术的最新发展,如通过RNA纯化分离染色质(ChIRP-seq)[13]、RNA靶点捕获杂交分析(图表seq)[14]、RNA反义纯化(RAP-seq)[15]和染色质寡亲和沉淀(ChOP-seq)[7],有助于通过破译特定lncRNAs的结合位点,生成lncRNAs染色质相互作用的全基因组图谱,其中大多数在含有与DNA结合蛋白相关的RNA的交联染色质中实现。因此,它们不能为DNA:RNA三联体形成的研究提供可靠的参考。为了揭示体内DNA:RNA三联体相互作用的存在,Cetin等人[16]开发了一种通过排除染色质交联来绘制全基因组DNA:RNA三联体的方法。该方法证明了DNA:RNA三联体结构的生理相关性。

目前,DNA:RNA三联体的预测主要依赖于碱基配对规则的相关数理统计。Triplexator被提议通过考虑Hoogsteen和反向Hoogsteen碱基配对来系统地识别RNA的潜在三联体形成位点和DNA上的靶向位点[17],triplex Inspector被设计为通过考虑基因位置和基因组结构来选择序列特异性配体和靶点[18],LongTarget旨在通过考虑非规范规则来检测形成三联体的基序和结合位点[19],并开发了三联体结构域查找器(TDF)来预测三联体并表征lncRNA和相应的DNA靶标[20]。

尽管上述方法可以根据规范规则识别潜在的三联体,但它们预测了大量具有三联体形成潜力的lncRNAs。然而,实验确定的形成三联体的lncRNAs数量有限,这表明在实践中可能并非所有lncRNAs都能形成三联体。此外,计算方法只计算理论三重电位,而不考虑任何体内或体外试验验证数据。

在这项工作中,我们有以下两个目标:(1)根据计算方法计算的具有三联体形成能力的lncRNAs,预测实际中最可能形成三联体的lncRNAs;(2)根据实验验证的数据预测DNA位点形成三联体的潜力。为此,我们开发了TriplexFPP(Triplex成形电位预测)。这是DNA:RNA三联体形成潜力预测中的第一个机器学习程序。在三重lncRNA预测中,在阈值为0.8的移除冗余数据集上进行五倍交叉验证时,ROC下面积(AUROC)和PRC下面积(AUPRC)的平均值是。0.9649和0.9996。此外,三重DNA位点潜在预测的平均交叉验证AUROC和AUPRC值为0.8705和0.9671。TriplexFPP的良好性能说明了其在预测三联体形成潜能方面的有效性,可为lncRNA功能的探索提供参考。此外,我们还简要总结了三联体lncRNA的顺式和反式靶向作用,这可能为探索lncRNA结合机制提供一些见解。

3.实现

1.数据

1.三重lncRNA预测数据集

通过两种方式收集三重lncRNA预测的阳性数据。一方面,我们根据Sentürk等人[16]的工作中报告的三联体RNA区域(DNA:RNA中形成三联体的RNA峰)提取lncRNAs,同时考虑基于固相可逆固定的顺磁珠大小选择和Hela S3细胞中抗DNA抗体RNA分离的免疫纯化。我们使用GENCODE release 33 lncRNA注释[21]提取覆盖三联体RNA区域的lncRNA,并通过这种方式获得476个独特样本。我们将这些LNCRNA命名为triplexlncRNA。另一方面,我们还收集了lncRNAs,这些lncRNAs通过体内或体外实验进行验证,以从同行阅读的出版物中获得具有DNA的三倍体。这些lncRNA被命名为已报道的三链lncRNA,包括MEG3[7]、PARTICL[8]、MIR100HG[11]、FENDRR[22]和HOTAIR[10]。所报告的三链lncRNA的所有变体都被考虑在内。报告的三倍体lncRNA总数为159。

由于我们的目标是根据计算方法预测的具有三联体形成能力的lncRNAs预测实际中最有可能形成三联体的lncRNAs,因此我们使用TDF[20]进一步过滤数据。当使用TDF(默认参数)评估上述635个lncRNAs的全基因启动子(染色体Y和M除外)的三倍体形成潜力时,其中104个不包含具有强大的三联体形成寡核苷酸(TFO)支持的DNA结合域(DBD)。在收集的阳性数据中,从TDF获得的三倍体形成能力低的现象有两种可能的解释:i)对于报告的三倍体lncRNA,每个lncRNA基因可能有多个带有剪接变异体的转录本,但可能并非所有的变异体都具有与DNA形成三倍体的能力;ii)对于三倍体lncRNA,R-Loop和TriplexRNA区域之间的重叠区域无法确认是否形成三联体[16]。为了保证数据的可靠性,我们删除了104个三倍体形成能力低的lncRNAs,最终在阳性数据集中获得531个样本。

阴性样本的采集遵循与阳性样本相同的过滤规则。在从GENCODE注释中删除原始阳性数据集中的lncRNAs后,我们通过TDF评估了所有剩余lncRNAs与整个基因启动子(chrY和chrM除外)的三倍体形成潜力。我们只保留了至少一个功能强大的TFO支持的DBD和至少123个DNA结合位点(DBS)的lncRNAs(阳性数据中最小数量的DBS为123个)从合格的lncRNAs中,我们进一步删除了一个序列中带有字母“N”的lncRNA以及据报道形成RNA-RNA三联体的lncRNA MALAT1变体[23]。最后,阴性数据集包含36021个lncRNAs,这些lncRNAs具有与阳性数据相当的三倍体形成能力。我们还准备了另外两个消除冗余的数据集。我们使用CDHIT[24]删除原始数据集中阈值为0.8和0.9的每个类中的冗余。两个删除的冗余数据集中的正数据量和负数据量分别为384和28012,以及286和22681。

2.三重DNA位点潜在预测数据集

为了根据实验数据预测DNA中的三倍体形成位点,我们采用了从Sentürk等人[16]获得的三倍体DNA区域(DNA:RNA DNA中的三倍体形成峰)作为阳性数据。这些RNA相关DNA通过无偏方法富集。删除序列中包含字母“N”的5个样本后,最终的正数据集大小为2542。选择阴性数据作为启动子中的随机区域。我们下载了所有ensembl注释的启动子[25],从中我们生成了12735个区域(是原始阳性数据量的5倍)。这些区域是通过随机选择染色体(chrY和chrM除外)和与三倍体DNA长度相同的DNA区域获得的。从DNA负链中提取阳性和阴性的序列数据。

2.特征提取

本文考虑了两种与序列相关的特征提取策略:k-mer和kmerscore。这两种策略都已成功应用于RNA分类问题[26,27]。K-mer是一种将序列转化为载体的常用方法,它计算序列中单个或多个核苷酸组成的频率,并将序列表示为4K维载体。K-mer特征可计算为

 其中kmer(i)是所有4K可能性中第i个核苷酸组成的频率,分母n− K+1表示长度为n的序列中所有可能的k相邻核酸的总数。例如,在3-聚体情况下,k=3,考虑到序列S=AAAAC,其n=5,其在AAA和AAC的核苷酸组成下的频率分别为2/3和1/3,而其他3-聚体组成(如AAG等)的频率为0。

kmerscore是序列中k-mer核苷酸组成偏差的总体度量,它是从k-mer特征中获得的。为了计算它,首先需要计算所有序列的k-mer特征,然后分别从对应的k-mer特征中获得正数据集和负数据集的平均k-mer向量,其表示为Mpos(hi)和Mneg(hi),其中i=1,2,4k。最后,对于核苷酸序列S=s1s2...sn。具有k-mer序列的序列号S=h1h2..hn-k+1。kmerscore可以表示为

 3.模型构造

我们开发了一个集成的机器学习程序,称为TriplexFPP(Triplex Forming Potential Prediction),用于Triplex Forming Potential Prediction。它由两个独立的模型组成,包括三链lncRNA预测模型和三链DNA位点电位预测模型。

我们采用两层卷积神经网络来构造模型,可以有效地学习高层特征。有关模型结构和参数的详细说明,请参见下面的TriplexFPP初始培训部分。由于三重lncRNA预测和三重DNA位点预测中的正数据集大小和负数据集大小不平衡,比例分别为1:68和1:5左右,为了避免模型偏差,我们在训练过程中采用了随机下采样技术。负样本的训练数据随机抽取数量与正样本的训练数据相同。由于三倍lncRNA预测中的正数据集非常小,只有531,我们还对该数据集应用了过采样。因为三倍体lncRNA预测中的阳性数据是从两个来源收集的,其数量比例约为2.5到1(三倍lncRNA到报告的三倍lncRNA),强制模型学习所有阳性数据的全局特征,而不是多数类型数据的公共特征,triplexlncRNA,我们为弱类型数据分配了更多的权重,在训练过程中增加阳性数据的过程中,报告了三重lncRNA,我们将这种做法命名为加权装袋策略。

4.模型评估

为了证明模型性能,使用了准确度(Acc)、敏感性(Sn)、特异性(Sp)和AUROC的评估标准。此外,还采用了评估不平衡数据的标准,包括AUPRC、F1分数和调和平均值(Hm)。下面列出了计算上述标准的方程式。

 其中FN、FP、TN和TP分别表示假阴性、假阳性、真阴性和真阳性的数量。

4.结果

1.TriplexFPP的初步培训

通过考虑k-mer(k=1,2,3,特征数=84)和k-merscore(k=1--6),将每个输入序列表示为一个固定长度的90维向量,特征数量=6)特征。k-mer和k-merscore特性对TriplexFPP的影响可在附加文件1中找到:图S1。我们使用训练数据中的平均k-mer特征值来计算相应分割中训练和测试数据的kmerscore特征,以排除测试数据中的任何信息。

 图S1。确定TriplexFPP中的特征。左:三重lncRNA预测模型,右:三重DNA位点预测模型。

TriplexFPP中的参数,如卷积层数、核大小、激活函数等,是根据两个单独模型中相应的随机分裂数据集确定的。每次我们在保持其他参数不变的情况下更改一个参数的值,然后选择达到Sn最高值的参数作为该参数的最终选择。附加文件1:图S2和S3分别显示了三链lncRNA预测模型和三链DNA位点预测模型的参数设置和相应性能。TriplexFPP的详细架构和参数如图1所示。

图S2。TriplexFPP triplex lncRNA预测模型网络参数确定。(a) 使用不同数量的卷积层实现的精度。(b) 通过选择不同的激活函数实现的精度。(c) 在1stconvolution层中,通过选择不同的内核和步幅大小实现精度。(d) 在第二个包围层中,通过选择不同的内核和步幅大小实现精度。(e) 在1stand 2ndconvolution层中,通过选择不同的滤波器数量实现精度。(f) 通过不同的辍学率选择获得的准确度。(g) 通过不同的优化器选择实现的精度。(h) 通过选择不同的训练历元来获得训练和测试精度,用虚线标记最佳测试精度,并在构建模型时采用相应的训练历元数(110)。

 

 图S3。TriplexFPP三链DNA位点预测模型网络参数确定。(a) 使用不同数量的卷积层实现的精度。(b) 通过选择不同的激活函数实现的精度。(c) 在1stconvolution层中,通过选择不同的内核和步幅大小实现精度。(d) 在第二个包围层中,通过选择不同的内核和步幅大小实现精度。(e) 在1stand 2ndconvolution层中,通过选择不同的滤波器数量实现精度。(f) 通过不同的辍学率选择获得的准确度。(g) 通过不同的优化器选择实现的精度。(h) 通过选择不同的训练历元获得的训练和测试精度,以虚线标记最佳测试精度,并在构建模型时采用相应的训练历元数(75)。

 图1 TriplexFPP的体系结构。TriplexFPP由两个模型组成,给出了相应的模型结构和参数

 2.三重lncRNA预测的评价

在本节中,我们评估了TriplexFPP中的三重lncRNA预测模型,评估其根据计算方法预测的具有三重形成能力的lncRNAs预测最可能形成三重lncRNA的能力。

们首先在阳性数据集(三倍lncRNA和报告的三倍lncRNA)和阴性数据集(附加文件1:图S4)中可视化lncRNA序列的核苷酸组成。报道的三链lncRNAs和阴性lncRNAs的核苷酸组成更为一致,其中核苷酸A和T所占百分比较大;而triplexlncRNA遵循不同的模式,其序列是主要是CG丰富。由于triplexlncRNA的数量大于我们阳性数据集中报告的triplexlncRNA的数量,为了确保模型能够学习所有阳性数据的高级特征,而不是triplexlncRNA的序列组成特征,在训练过程中增加阳性数据时,我们为报告的三重lncRNA分配了更多的权重。我们使用加权套袋策略将阳性训练数据增加三倍,其中三分之二直接从原始阳性训练数据中套袋,三分之一从报告的三倍lncRNA中额外套袋。我们将我们的方法与深度神经网络(NN)、支持向量机(SVM)、随机森林(RF)和梯度增强等基线模型进行了比较。神经网络模型的参数被确定为在随机分割训练和测试数据集的多个选择中具有最佳Sn值的参数,其他基线模型的参数被确定为基于召回标准的参数网格交叉验证搜索的最佳参数。每个基线模型的候选参数和最终确定的参数记录在附加文件1:表S1中。图2a中的所有模型均展示了五倍交叉验证的方框图和胡须图,其中,在每次验证中,从4个训练折叠中随机选择负训练数据作为相同数量的增强正训练数据。

 图S4。在lncRNA三倍预测模型中,阳性数据(三倍lncRNA和报告的三倍lncRNA)和阴性数据中的核苷酸频率分布。

 图2 三倍FPP中lncRNA三倍预测模型的评估。a CNN和4种基线模式(SVM、RF、梯度增强和NN)的五倍交叉验证的框须图。b在不消除冗余的情况下,在阈值为0.9的情况下,比较数据之间的五倍交叉验证性能,并删除阈值为0.8的冗余。

为了在实践中找到最有可能形成三联体的lncRNAs,尽管梯度推进法实现了最佳Acc和F1评分值,但其Sn值主要集中在87.74和92.45%之间. 相反,CNN模型的Sn值范围为93.40至97.17%,集中在高价值区域,这表明其在模型性能上优于基准模型。此外,CNN模型中其他评价指标的总体高值,平均Acc的35%,平均AUROC为0.9926,平均AUPRC为0.9999,F1平均得分0.992分。平均Hm的0.969,进一步说明了我们的CNN模型在lncRNA三联体形成潜能预测中的三联体FPP的有效性。

然而,上述五倍交叉验证的一个问题是,高性能可能是由训练和测试之间的高数据相似性引起的。在我们的阳性数据集中,531个样本涉及135个基因(附加文件1:图S5),其中57个基因拥有两个或更多变体。来自同一lncRNA基因的不同变体可以共享高度的序列组成相似性,从而导致良好的预测结果。为了评估该模型在预测lncRNA三联体形成潜力方面是否足够强大,我们进一步对去除冗余的数据集执行五倍交叉验证,并进行遗漏验证。

 图S5。对于每个基因的变异数量的证明,浅色到深色意味着小变异数量到大变异数量,外部:三倍lncRNA,内部:报告的三倍lncRNA。

我们比较了CNN模型在不消除冗余的数据集上的性能,消除了阈值为0.9的冗余。并移除阈值为0.8的冗余。结果如图2b所示。尽管删除冗余数据的平均性能略低于未删除冗余数据的平均性能,但删除冗余数据集的评估矩阵中的值仍处于较高水平。例如,在阈值为0.9的已删除冗余数据集中。AUROC和AUPRC值的范围为0.9637到0.9880和0.9993到0.9998;在阈值为0.8的已删除冗余数据集中。AUROC和AUPRC值的范围为0.9497到0.9809和0.9994到0.9998。

对于遗漏验证,我们选择四个变体数量最多的lncRNAs作为测试数据,包括MIR100HG、PVT1、LINC00963和MEG3。它们的变异量分别为87、73、52和46。四种lncRNAs的数据来源不同,PVT1和LINC00963属于三链lncRNA,而MIR100HG和MEG3属于已报道的三链lncRNA。在每个遗漏验证中,我们选择一个lncRNA并使用其所有变体作为阳性检测数据,同时使用所有剩余的阳性lncRNA作为训练数据。训练和测试过程重复5次,每次从上述五倍交叉验证拆分中的一个中随机选择与阳性训练数据数量相同的阴性训练数据,阴性测试数据为上述五倍交叉验证测试数据。

当将lncRNA PVT1和LINC00963排除在外时,我们的模型正确地预测了它们的所有变体为阳性。PVT1和LINC00963的平均AUROC值为0.9996和0.9968。然而,当将lncRNA MIR100HG和MEG3排除在外时,它们的平均AUROC值为0.6594和0.3220,有点低。三倍体LNCRNA和已报道的三倍体LNCRNA之间性能不同的一个可能原因是,在三倍体LNCRNA中,我们采用了与实验验证的三倍体形成区域重叠的变体;然而,在报道的三倍体lncRNA中,我们采用了该基因的所有变体,然而,可能并非所有这些变体都能在实践中形成三倍体。有趣的是,当我们只使用六个kmerscore特性来训练MEG3的遗漏模型时,它的平均AUROC值可能会增加到0.7610,但将MIR100HG排除在外时未发现此现象。

3.三链DNA位点电位预测的评价

我们使用五倍交叉验证来评估TriplexFPP中三链DNA位点潜在预测模型的性能,并将其与其他基线模型进行比较(图3a)。在预测三链DNA位点时,基线模型参数的确定遵循与三链lncRNA预测相同的程序。每个基线模型的候选参数和最终确定的参数记录在附加文件1:表S2中。CNN的总体性能优于基线模型,其平均AUROC和AUPRC值为0.8705和0.9671;而对于基线方法,AUROC的平均值位于0.8635到0.8667的范围内,AUPRC的平均值为0.9642比0.9660分别为。然后,我们将CNN模型在每个折叠中的预测概率分数可视化(图3b和附加文件1:图S6)。尽管一些样本预测错误,但大多数正面数据的预测概率分数集中在1左右。这一现象表明,我们的模型能够以高置信度正确预测大多数数据。

 图3三倍体FPP中三倍体DNA位点潜在预测模型的评估。a CNN和基线模型五倍交叉验证的盒须图。b第一次验证数据预测概率得分分布的可视化

 图S6。交叉折叠验证测试数据的预测概率分数分布。从左上到右下:折叠2到折叠5

此外,HOTAIR序列中的649–708区域被证实形成DNA:RNA三联体[10],我们的模型正确预测该位点为三联体形成类型。总的来说,在有限的数据下,我们的结果表明TriplexFPP可以有效区分体内分析定义的三联体形成DNA位点和仅以核苷酸序列特征作为输入的背景位点。

4.TriplexFPP模型解释

以TriplexFPP中两个模型中的第一次折叠验证为例,我们在图4和附加文件1:图S7中以热图的形式绘制了每个类别的平均特征值(原始特征),在一个CNN层后进行训练,在两个CNN层后进行训练。kmerscore特征(原始特征中的前六个特征)在两个类别中显示出明显的差异,这表明核苷酸成分在正负数据中的位置上具有不同的偏好。kmerscore特性在仅使用一个CNN层进行训练后也会导致不同的卷积值。然而,对于其余的特征,两类之间卷积值的差异在经过2层CNN训练后才显示出明显的差异。

 图4三重lncRNA预测模型中每类的平均特征值。顶部:原始特征(90维特征被重塑为9*10),中间:使用一个CNN层训练后的特征(x轴:过滤器,y轴:卷积值1到15),底部:使用两个CNN层训练后的特征(x轴:过滤器,y轴:卷积值1到15);左:正数据,右:负数据

 图S7。三链DNA位点预测模型中每一类的平均特征值。顶部:原始特征(90维特征被重塑为9*10),中间:使用一个CNN层训练后的特征(x轴:过滤器,y轴:卷积值1到15),底部:使用两个CNN层训练后的特征(x轴:过滤器,y轴:卷积值1到15);左:正数据,右:负数据

5.顺式/反式三链形成lncRNA的探索

lncRNA可以与顺式和反式DNA形成三联体结构,但三联体lncRNA的顺式和反式靶向是否存在差异仍然未知[28]。在这项工作中,我们从两个数据源探讨了三联体lncRNAs的顺式和反式靶向性。

从每个三倍LNCRNA和三倍DNA之间的TDF结果来看,三倍LNCRNA中的238个LNCRNA同时显示顺式和反式与DNA的相互作用,其顺式结合数范围为1到2450;而其他141个lncRNAs仅显示与DNA的反式相互作用(附加文件1:图S8)。此外,对于特定的lncRNA基因,其变体可能显示不同的结合模式。在与三联体LNCRNAs相关的所有130个基因中,26个基因包含属于顺式和反式相互作用类型或仅在反式相互作用类型的变体(附加文件1:图S9和S10)。

 图S8。在三倍LNCRNA中,反式lncRNAs中顺式-26的统计。左:两类lncRNAs的数量,右:反式lncRNAs中in-cis&的in-cis结合位点数量的分布。

 图S9。在三倍LNCRNA中,反式lncRNAs中顺式-26的统计。左:每种类型的基因数,右:两类PVT1和LINC00963的变异数。

 图S10。顺式/反式lncRNA预测中两类数据中的基因名称和变异数。

此外,对于那些报道的三链lncRNA,我们从附加文件1:表S3[7,8,10,11,23,29]中公布的工作中收集它们的绑定信息。根据图4,三重lncRNA预测模型的每一类中的平均特征值。顶部:原始特征(90维特征被重塑为9*10),中间:使用一个CNN层训练后的特征(x轴:过滤器,y轴:卷积值1到15),底部:使用两个CNN层训练后的特征(x轴:过滤器,y轴:卷积值1到15);左:阳性数据,右:阴性数据,相应实验,lncRNA HOTAIR、MEG3和MIR100HG显示为反式结合,PARTICL和FENDRR显示为顺式结合。

 表S3。报告的三链lncRNA的结合信息

5.讨论

LncRNA通过与DNA相互作用发挥功能。在各种相互作用中,由于验证分析的数量有限,我们对DNA:RNA三联体的形成仍然不太了解。虽然已经发展了各种基于规范规则的计算方法来预测lncRNA和DNA位点的三倍体形成潜力,但它们确定了大量可以形成三倍体的lncRNAs。然而,有限的实验验证数据表明,在实践中可能并非所有这些都能形成三倍体。此外,这些计算方法仅在理论上计算三重电位,而不考虑任何体内和体外验证数据。

我们新开发的程序,即TriplexFPP,使用从体外和体内分析中获得的数据进行训练,显示出良好的预测性能。其三重lncRNA预测模型通过在五倍交叉验证中获得评估矩阵的高平均分数而有效工作。例如,在阈值为0.8的已删除冗余数据集中。Acc、AUROC、AUPRC、f1分数和Hm的平均交叉折叠验证值为95.28%, 0. 9649, 0. 9996, 0. 976和0.904。此外,TriplexFPP中的三链DNA位点电位预测模型也能有效地工作。在五倍交叉验证中,其平均AUROC和AUPRC值为0.8705和0.9671。而且大多数数据都是以高置信度正确预测的。

根据本研究收集的不同数据来源,我们还总结了三联体lncRNAs的顺式和反式靶向性,这可能为探索lncRNA顺式和反式结合机制提供一些见解。

然而,这项工作的一个限制是正数据量很小。此外,我们负面类中的一些数据可能属于正面数据,但尚未得到验证。因此,我们期望更多的数据能够帮助实现这一工具。此外,我们收集的数据中的一小部分lncRNA可能属于R环形成类型,这可能会对结果产生某种影响。

6.结论

我们提出了一个基于深度学习的DNA:RNA三联体形成预测程序,即TriplexFPP。TriplexFPP预测了所有具有计算定义的三倍体形成能力的lncRNAs中最有可能形成三倍体的lncRNAs,它还预测了DNA位点成为三倍体的可能性。与那些数学统计方法相比,TriplexFPP缩小了形成triplex的可能lncRNAs的范围。我们希望TriplexFPP能够提供见解和参考,帮助破译lncRNA函数的代码。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值