DeePromClass:利用深度神经网络预测真核核心启动子的工具

本文链接：https://blog.csdn.net/m0_45267771/article/details/132471131

期刊：IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS

论文链接：DeePromClass: Delineator for Eukaryotic Core Promoters Employing Deep Neural Networks | IEEE Journals & Magazine | IEEE Xplore

JCR 分区：1区

影响因子：6.60

摘要：真核生物的启动子识别是一个经典的生物学问题。考虑到真核核心启动子显示的多种信号，如TATA-Box、inelement、TCT和Pause-button等，以及g - four - plexes等结构基序。在本研究中，我们通过将深度学习技术与大量启动子基序相结合，设计了含有卷积神经网络与长短期记忆循环神经网络组合架构的五个模型系统。将CNN-LSTM组合模型称为DeePromClass.它对酵母，杆线虫、果蝇、小鼠、人类的检测准确性分别为90.6%、93.6%、91.8%、86.5%和84.0%. 总的来说， DeePromClass为启动子生物学家在下一代启动子预测工具上提供了深刻更新。

1 介绍

DNA构成生命的源代码，基因的时空表达由转录程序承担。核心启动子是DNA的一个小片段。在真核生物中的核心启动子通常以大量同源序列基序为特征，特别是TATA盒、Inr元件(启动元件)、BRE (TFIIB识别元件BREu和BREd)、DPE(下游启动子元件)和暂停按钮等。

在基因组中标记启动子序列是生物学中经典而又具有挑战性的任务之一。启动子预测方法大致可分为“按信号搜索(共识基序信息)”、“按内容搜索”、“按结构搜索”、“综合搜索(两个或两个以上特征的组合)”、“混合搜索(序列信息等实验信息)”和“基于同源的方法(同源基因信息)”[16]。这些特征可以与统计学习模型(如机器学习)集成，以提高性能。在过去的二十年中，利用经典的机器学习方法开发了几种启动子预测算法，即人工神经网络、朴素贝叶斯、主成分分析、随机森林分类器、相关向量机和支持向量机等(参见[17]、[18]、[19])。随着高通量基因组实验数据的可及性和一些新算法的出现，最近的研究采用深度学习策略来预测真核生物的启动子。

深度学习是机器学习技术的一个分支，因其前所未有的预测性能而备受赞誉。深度学习来源于复杂神经系统中生物神经元如何工作的意识形态。近年来，一些最先进的基于深度学习的真核启动子预测因子被开发出来，即CNNProm[20]、Qian等改进的CNN[21]、DCDE-MSVM[22]、DeeReCT-PromID[23]、DeePromoter[24]和Descriptor[25]。所有这些方法要么是为提取含tata和不含tata的启动子而开发的，要么是基于长度大于251个核苷酸的启动子区域。此外，生物学家通常对识别核心启动子片段以及基因组中潜在的特征基序感兴趣。考虑到现有工具的局限性，我们采用多层CNN--LSTM的组合架构和启动子信号的正则表达式搜索策略，分别对5种真核生物物种酵母菌、杆线虫、果蝇、小鼠和智人构建了一种新的启动子预测工具DeePromClass (Deep learning based promoter Classifier)。

2 数据集

2.1 启动子数据集收集

数据集包括5种真核模式物种的启动子和非启动子数据集，包括酿酒酵母菌、秀丽隐杆线虫、黑腹果蝇、小家鼠和智人。将启动子数据和非启动子数据分别作为训练深度学习模型的阳性数据和阴性数据。我们从真核生物启动子数据库(Eukaryotic Promoter Database, EPD)中收集了阳性和阴性数据集，该数据库提供了真核生物实验筛选的转录起始位点信息[28]。访问EPDnew网页(https://epd.epfl.ch/EPDnew_database.php)可以提取启动子数据。将相对于转录起始位点的151个核苷酸的序列长度[-100到+50]作为本分析的阳性数据。对于阴性数据集，提取相对于转录起始位点[+100 ~ +250]的序列。将阳性(启动子)和阴性(非启动子)数据集标记、连接、洗牌并转换为编译深度学习模型所需的输入格式。转换后的数据集以80:20的比例分割，组成用于模型开发的训练和测试数据集。使用20%的训练数据集对该工具进行了验证。

2.2 启动子序列基序

多种启动子共识序列信号TATABox、启动子元件(Inr Human和Inr Fly)、TCTelement、TFIIB识别元件(BREu和BREd)、下游核心启动子元件(DCEI-DCEIII)、基序10元件(MTE)、X核心启动子元件(XCPE1和XCPE2)、暂停按钮、下游启动子元件(DPE)和sp1元件以及DNA结构基序a -tracts、i-motifs和G-quadruplex motifs作为正则表达式搜索策略在该工具中实现。启动子序列信息来自最近的一项研究，该研究汇编了经过实验验证的共识基序[6]。DNA结构基序搜索标准的实现与我们之前的工作一样[29]。motif列表和一致序列见表2。

2.3 用于模型设计的工具

DeePromClass已经在python 3.0中使用TensorFlow (TensorFlow -gpu)库(https://www.tensorflow.org/)实现。TensorFlow是使用最广泛的开源机器学习框架，主要侧重于深度神经网络[30]。来自Keras的高阶神经网络库被选择运行在TensorFlow框架之上。使用python工具matplotlib (https://matplotlib.org/)、numpy[31] (https://numpy.org/)和pandas[32] (https://pandas.pydata.org/)进行数据处理、操作、可视化和统计分析。Scikit-learn预测数据分析工具(https://scikit-learn.org/stable/)用于精度、召回率、Fscore、准确度和受试者工作特征(ROC)度量等计算[33]

2.4 利用深度学习构建序列启动子类模型

已确认的DeePromClass架构包括多层一维卷积神经网络，其层数因物种而异，并结合长短期记忆框架层。体系结构的轮廓如图1所示。

2.4.1 序列编码

DNA数据包含“A, T, G, C”核苷酸，机器无法对其进行建模。因此，我们将包含A、T、G和C的数据集分别转换为1、2、3和4的数值向量。然后，使用来自Keras应用程序编程接口的“to_categororical”函数，数据已经进行了独热编码，仅由0和1组成。加载标记为启动子序列和非启动子序列的独热编码训练数据集作为初始CNN模型的输入层。

2.4.2 卷积神经网络层

CNN的设计包括六个(每个物种可能有所不同)一维卷积层。所有六个卷积层都由批处理归一化叠加。在第二、第四和第六批规范化步骤之后，分别使用池大小为2和drop-out值为0.5的平均池化和drop-out层。前两个卷积层的滤波器尺寸为32;第三和第四个卷积层使用过滤器大小为64，最后两个卷积层使用过滤器大小为124。第一层和第二层的内核大小为5，而其他四层的内核大小为3，其中较小的内核大小为5，公共步长为value =1。使用激活函数，整流线性单元，增加了所有六个cnn的非线性。过拟合问题是使用L1L2核调节器(它是绝对权重和平方权重的总和)来控制的。

2.4.3 长短期记忆层

从六个CNN层中提取的输出特征通过一个输出维数为1024的双向长短期记忆层进行池化、平面化和增强。使用ReLU激活法和最终Softmax激活法的连续两层对网络进一步深化，得到最终模型。最后，我们使用分类精度度量、adam优化算法和分类cal_crossentropy损失函数对模型进行了编译。模型中使用的损失函数是一个分类交叉熵函数，以考虑算法的随机性。此外，我们使用了早期停止召回方法来防止模型过拟合(补充图1)。

2.4.3 正则表达式模块

在深度学习级联之外，还构建了一个包含大量序列基序的正则表达式搜索模块(表2)。

2.5 性能指标

为了评估DeePromClass的性能并与其他方法进行比较，我们计算了precision(阳性预测值)、recall(真阳性率或灵敏度)、F-score (recall和precision的调和平均值)和准确率[34]如下

性能指标、准确率、召回率、f分数和准确性可以解释该工具的定性和定量性能。值得注意的是，准确率、召回率和f分数是基于本研究中使用的正数据集和负数据集得出的。

3 结果与讨论

尽管有 CNNProm、 DeePromoter和 descriptor等基于深度学习的优秀工具可用，但它们并未考虑真核生物核心启动子中保存的大量序列基序。因此，我们广泛利用深度神经网络的力量、核心启动子信号的知识、以及真核启动子数据库中高度可靠的启动子序列数据，开发一种将正则表达式策略与 CNN-LSTM架构相结合的启动子预测工具。称这个工具为"DeePromClass"。下面利用其他内部深度学习网络验证DeePromClass的性能，并与最先进的启动子预测工具进行比较。

3.1 DeePromClass体系结构与CNN、LSTM、Inception和Resnet体系结构的比较

为了验证DeePromClass性能,我们将DeePromClass网络与四种复杂的模型(Incepting、 Resnet、CNN、LSTM)进行了比较。在杆线虫数据集上， Inception、 Resnet、 CNN、 LSTM和 CNN- LSTM模型的测试精度值分别为0.83、0.88、0.91、0.78和0.94。在人类数据集上的测试精度值分别为0.73、0.83、0.69、0.72和0.84（如图2所示）。通过比较， CNN-LSTM模型比其他模型具有更好的性能。因此， CNN- LSTN模型被考虑用于其他模型系统。 Deepromclass的性能(准确率、召回率、F-score和准确率)如图3。数据表明 Deefromclass是一种性能优异的启动子预测工具。以前的工具没有报道杆线虫和酵母菌的深度学习模型。

3.2 DeePromClass架构与最先进工具的比较

接下来，我们试图将我们的工具与之前发表的最先进的工具CNNProm、Deepromoter和descriptor的性能进行比较。研究结果表明，与基于信号、k-mer或结构的工具相比，传统的机器学习和深度学习衍生工具在性能上更优越。基于支持向量的方法iProEP[39]、基于深度学习的方法CNNProm、Deepromoter和descriptor被认为是很好的预测器。然而，工具的性能值因物种而异[38]。因为每种工具用于构建模型的物种选择各不相同，所以比较不能直接进行。报告的精确率和召回率如表3所示。结果表明，DeePromClass、descriptor和Deepromoter的性能相当，在特定物种或启动子类型方面，一个工具的性能优于另一个工具。有趣的是，DeePromClass在人类TATA和果蝇Non-TATA数据集上优于其他工具(表3)。然而，与所有最新的最先进的工具相比，我们的工具的主要优点是将给定序列分类为具有置信度分数的启动子，并且提供了大量功能基序的生物学见解。

3.3 DeePromClass应用程序

DeePromClass首先获取输入序列，并根据“启动子置信度百分比”对输入序列进行分类，看它是启动子序列还是非启动子序列。此外，它列出了所鉴定序列中存在的核心启动子元件的名称。目前，DeePromClass工具通过Github静态托管服务作为源代码形式提供。我们提供了线虫、黑胃虫、智人、小家鼠和葡萄球菌这5个物种的编译模型以及主要的“启动子-发现-分类”脚本。用户需要下载工具包，并通过交互式python笔记本(如jupyter或Googleco-lab笔记本)运行主脚本，并安装模块要求。测试DNA序列应该作为“Input_data”提供给工具。txt”的Fasa格式。序列的大小没有限制。该工具将大小为151个片段的启动子列表输出到一个单独的文件中，并附带找到的每个可能启动子的索引。这些启动子也根据在151个区域中发现的共识信号进行分类。百分比置信度分数与发起人的启动指数一起提供。百分比置信范围95-100更接近100被认为是高度可靠的。低于95分的分数可能不是启动子。该工具中没有列出任何基序的启动子序列被预测为“无法分类”。readme.txt文件提供了使用该工具的明确说明。该工具的预测输出结果示例如图4所示。DeePromClass的源代码和相关的数据集可以免费获得:https://github.com/hemanthkari/DeePromClass.git。

4 结论

DeePromClass应用一维卷积神经网络(1D CNN)和递归神经网络(LSTM)训练启动子和非启动子数据集，并整合多个启动子元素的正则表达式搜索策略输出启动子预测结果。DeePromClass的性能与之前发布的基于深度学习的工具相当。这里采用的一些模型在某些生物体上表现更好。在特定物种或启动子类型方面，一个工具的性能优于另一个工具。此外，这个工具可能需要在其他物种模型上进行超参数调整和严格的训练，以提高生物学家的适用性。专家可以通过改变层数和特征映射提高模型的准确性。