DeePromClass：使用深度神经网络的真核核心启动子的描述符

期刊：IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS

JCR 分区：1区

影响因子：6.60

出版时间：2023 年

摘要

真核生物中的计算启动子识别是一个经典的生物学问题，应该通过大量实验数据和新兴的深度学习技术的可用性进行翻新。目前的知识表明，真核核心启动子显示出多种多样的信号，如TATA-Box、Inr元件、TCT和Pause-button等，以及G-四链体等结构基序。

在本研究中，我们将深度学习的力量与过多的启动子基序相结合，以描绘从 DNA 序列排列的统计特性中收集到的启动子和非启动子。为此，我们为五个模型系统实施了卷积神经网络 (CNN) 和长短期记忆 (LSTM) 循环神经网络架构，处理以作为核心启动的转录起始位点的
的[-100 至 +50] 片段。

与以前提供启动子或非启动子二元决策的最先进工具不同，我们将一大块 151mer 序列与共有信号类型或非启动子一起分类为启动子。组合的CNN-LSTM模型；我们称之为“DeePromClass”，对酿酒酵母、秀丽隐杆线虫、黑腹果蝇、小家鼠和智人的检测准确率分别为 90.6%、93.6%、91.8%、86.5% 和 84.0%。总的来说，我们的工具为启动子生物学家提供了关于下一代启动子预测工具的有明显的提升。

介绍

DNA构成生命源代码，时空基因表达由转录程序承担。核心启动子是一小段 DNA，充当转录的门户 [1]。它包含转录起始位点 (TSS) 并充当转录起始机制的识别位点。在真核生物核心启动子中，通常以过多的同源序列基序为特征，特别是TATA盒、Inr元件（起始元件）、BRE（TFIIB识别元件BREu和BREd）、DPE（下游启动子元件）和暂停按钮等. 相对于转录起始位点 [2]、[3]、[4]、[5]、[6]、[7] 的精确定位。它们还包含独特的结构信号和非规范启动子结构基序，即低稳定性区域、A-tracts 和非 B-DNA 基序 [2]、[8]、[9]、[10]、[11] , [12], [13]。值得注意的是，这些元素以组合方式或独立方式存在，或者可能根本不存在于基因子集中 [3]、[7]、[14]。然而，进化上保守的转录机制强烈识别核心启动子区域序列的独特排列，并启动模板链的转录。

标记基因组中的启动子序列是生物学中经典且具有挑战性的任务之一。基因组中的启动子识别是通过不同的目标完成的，例如破译基因表达、调控逻辑、基因组注释、描述非编码基因组的统计特性、新启动子的合成和学习顺式调控结构的进化。启动子表征的实验装置包括在复杂的基因组迷宫中定位转录起始位点、绘制 DNA-转录因子相互作用图、转录气泡快照等 [16]。尽管这些方法是准确的，但往往耗时、繁琐、昂贵且耗费人力。另一方面，当基因组序列信息可用时，计算方法可在短时间内提供可靠的结果。这些用于筛选启动子的工具利用启动子序列与其他基因组区段相比其核苷酸统计特性不同的假设 [16]。启动子预测方法大致可分为“信号搜索（共识基序信息）”、“内容搜索（k-mer信息）”、“结构搜索（双链稳定性等DNA结构描述符）”、“整合（组合）两个或多个特征）”、“杂交（序列信息和其他实验信息）”和“基于同源性的方法（直系同源基因信息）”[16]。这些功能可以与机器学习等统计学习模型相结合，以提高性能。在过去的二十年里，已经利用经典的机器学习方法开发了几种启动子预测算法，即人工神经网络、朴素贝叶斯、主成分分析、随机森林分类器、相关向量机和支持向量机等（综述在 [17]、[18]、[19] 中）。随着高通量基因组实验数据的可访问性和几种新算法的出现，最近的研究采用深度学习策略来预测真核生物的启动子。

深度学习是机器学习技术的一个子集，因其前所未有的预测性能而备受赞誉。这个概念来源于复杂神经系统的生物神经元如何工作的意识形态。深度学习中的不同类型的神经网络是人工神经网络 (ANN)、卷积神经网络 (CNN) 和递归神经网络 (RNN)。 CNN 最常应用于图像处理问题，其中神经元之间的连接布局受到动物视觉皮层结构的启发。长短期记忆 (LSTM) 属于递归神经网络架构。 LSTM 的链状框架允许它保存更长时间的信息，并且可以用于主要包括基于早期信息的预测的各种任务。最近开发了一些最先进的基于深度学习的真核启动子预测因子，即 CNNProm [20]，Qian 等人。改进了 CNN [21]、DCDE-MSVM [22]、DeeReCT-PromID [23]、DeePromoter [24] 和 Depicter [25]。 CNNPorm 基于卷积神经网络模型，用于识别拟南芥、M. musculus 和 H. sapiens 的含有 TATA 和不含 TATA 的启动子 [20]。 Qian 等人改进的用于启动子识别的 CNN 架构。的设计主要关注人类启动子序列中的转录因子结合位点 (TFBS)，方法是保持非元件序列压缩形式，同时启动子元件序列未压缩 [21]。 DCDE-MSVM 利用深度卷积发散编码 (DCDE)，然后使用多个支持向量机 (MSVM) 将基因组序列分类为人类基因组中的启动子和非启动子类别 [22]。 DeeReCT-PromID 实施一种基于 CNN 的人类基因组转录起始位点识别较长启动子区域的方法 [23]。 DeePromoter 的设计是通过将多个卷积层与基于双向长短期记忆的 RNN 相结合来预测 M. musculus 和 H. sapiens [24] 的含有 TATA 和不含 TATA 的启动子。最近的方法 Depicter（预测启动子的深度学习）结合了多个卷积神经网络和胶囊层，用于预测四种物种的 TATA 包含、非 TATA 和无法区分的启动子，果蝇、拟南芥、小家鼠和智人 [ 25]。所有这些方法要么是为提取含有 TATA 和不含 TATA 的启动子而开发的，要么是基于大小 > 251 个核苷酸的较长启动子区域而开发的。根据最近的更新，大多数功能性核心启动子元件被限制在相对于 TSS 的 -40 到 +40 区域，结构信号可以定位在 -100 到 +50 区域 [1]、[2]、[5]、[12] ]、[26]、[27]。值得注意的是，核心启动子结构非常复杂，有几个启动子信号、背景和 DNA 结构特性在起作用。此外，生物学家通常对识别核心启动子片段以及基因组中的潜在特征基序感兴趣。铭记先前最先进工具的这些局限性，我们通过采用多层 CNN 与 LSTM 的组合架构和启动子的正则表达式搜索策略，制定了一种新的启动子预测工具“DeePromClass（基于深度学习的启动子分类器）”五种真核物种酿酒酵母、秀丽隐杆线虫、黑腹果蝇、小家鼠和智人的信号。

2.数据集

我们的数据集包含五个真核模型物种酿酒酵母、秀丽隐杆线虫、黑腹果蝇、小家鼠和智人的启动子和非启动子数据集。启动子数据和非启动子数据被视为训练深度学习模型的正负数据。我们从真核启动子数据库 (EPD) 收集了阳性和阴性数据集，该数据库提供真核生物的实验筛选转录起始位点信息 [28]。 EPD 是推动启动子生物学计算研究进步的极好资源。已访问 EPDnew 网页 (https://epd.epfl.ch/EPDnew_database.php) 以提取启动子数据。使用 EPD 选择/下载工具，我们检索了启动子和非启动子序列信息。已选择相对于转录起始位点的 151 个核苷酸 [-100 至 +50] 的序列长度作为该分析的阳性数据。 -100 至 +50 区域表示最高的核心启动子活性，大多数启动子序列信号位于 -40 至 +40 [27]、[28] 内。对于阴性数据集，提取了相对于 TSS 从 [+100 到 +250] 的序列。 [+100 到 +250] 区域通常属于编码区域。值得注意的是，必须从 th 中筛选启动子序列紧邻的编码区。表 1 中列出了提取的序列数。对于比较分析，来自 EPD 的 [-40 至 40]、[100 至 180]、-250 至 50 和 [100 至 250] 区域的相同序列数。 [-40 到+40] 和[-250 到+50] 被认为是正数据，而[+100 到+180] 和[+100 到+250] 被认为是负数据集。正（启动子）和负（非启动子）数据集被标记、连接、打乱并转换为编译深度学习模型所需的输入格式。转换后的数据集按 80:20 的比例拆分，组成用于模型开发的训练和测试数据集。使用 20% 的训练数据集对该工具进行了验证。

2.2 启动子序列基序

多种启动子共有序列信号 TATA-Box、起始元件（Inr Human 和 Inr Fly）、TCT 元件、TFIIB 识别元件（BREu 和 BREd）、下游核心启动子元件 (DCEI–DCEIII)、基序十元件 (MTE)、X核心启动子元件（XCPE1 和 XCPE2）、暂停按钮、下游启动子元件 (DPE) 和 sp1 元件以及 DNA 结构基序 A-tracts、i-motifs 和 G-quadruplex 基序已作为正则表达式搜索在工具中实现战略。启动子序列信息取自最近的一项研究，该研究汇编了经过实验验证的共有基序 [6]。 DNA 结构基序搜索标准是在我们之前的工作中实施的 [29]。表 2 中提供了基序列表以及共有序列。

2.3 用于模型设计的工具

DeePromClass 已使用 TensorFlow (tensorflow-gpu) 库 (https://www.tensorflow.org/) 在 python 3.0 中实现。 TensorFlow 是使用最广泛的开源机器学习框架，主要强调深度神经网络 [30]。来自 Keras 的高阶神经网络库被选择在 TensorFlow 框架之上运行。 python 工具 matplotlib (https://matplotlib.org/)、numpy [31] (https://numpy.org/) 和 pandas [32] (https://pandas.pydata.org/) 被用于数据处理、操作、可视化和统计分析。 Scikitlearn 预测数据分析工具 (https://scikit-learn.org/stable/)已被用于精确度、召回率、F 分数、准确度和接受者操作特征 (ROC) 指标等计算 [33]。

2.4 使用深度学习构建序列启动子类模型

确认的 DeePromClass 架构涉及多层一维卷积神经网络，层数因物种而异，并与长短期记忆框架层相结合。架构的轮廓如图 1 所示。

在这里插入图片描述

图1所示。DeePromClass 的架构。 (A) 启动子和非启动子数据集被标记、连接、洗牌和单热编码。 (B) one-hot 编码输入层连接到卷积层，然后输出连接到 LSTM 层。然后将最后的 LSTM 层连接到密集层以进行分类。 © 输入序列通过 CNN-LSTM 模块和正则表达式搜索模块进行测试，以对存在签名基序的非启动子或启动子进行分类。

2.4.1序列编码

DNA 数据具有“A、T、G、C”核苷酸，机器无法解释这些核苷酸以进行建模。因此，我们将包含 A、T、G 和 C 的数据集分别转换为数值向量 1、2、3 和 4。然后，使用 Keras 应用程序编程接口中的“to_catergorical”函数对数据进行单热编码，仅由 0 和 1 组成。将标记为启动子和非启动子序列的单热编码训练数据集加载为输入层最初的 CNN 模型。

2.4.2 卷积神经网络层

CNN 设计包括六个（每个物种可能不同）一维卷积层。所有六个卷积层都由批量归一化来监督。第二、第四和第六批归一化步骤之后是平均池化层和丢弃层，池大小分别为 2 和丢弃值 0.5。前两个卷积层的滤波器大小为 32；第三和第四个卷积层使用大小为 64 的过滤器，最后两个卷积层使用大小为 124 的过滤器。第一层和第二层使用 5 的内核大小，而其他四层使用 3 的内核大小较小的5 的共同步幅为 1⁄4 1. 使用激活函数 Rectified Linear Unit 添加了所有六个 CNN 的非线性。过度拟合问题使用 L1L2 内核调节器（绝对权重和平方权重之和）进行控制。

2.4.3长期短期记忆层

从 6 个 CNN 层提取的输出特征通过一个输出维度为 1024 的双向长短期记忆层进行汇集、展平和扩充。使用分别具有 ReLU 激活和最终 Softmax 激活方法的两个连续层进一步加深网络到达最终模型。最后，我们使用分类精度指标、adam 优化算法和 categorical_crossentropy 损失函数编译模型。模型中使用的损失函数是分类交叉熵函数，用于说明算法的随机性。此外，我们使用了提前停止召回方法来阻止模型过度拟合（补充图 1，可以在计算机协会数字图书馆中找到，网址为 http://doi.ieeecomputersociety.org/10.1109/TCBB.2022.3163418）。

结果和讨论

深度学习，是一种以无与伦比的性能着称的百花齐放的机器学习方法，目前在科学和工业的各个领域都备受瞩目。当前分析的主要目标是在基因组规模上设计一种新的基于深度学习的启动子预测工具，以预测给定基因组序列中与五种模式生物密切相关的推定启动子酿酒酵母、秀丽隐杆线虫、黑腹果蝇、 Mus musculus 和 Homo sapiens 并表征预测序列中的序列和结构基序信号。尽管可以使用 CNNProm [20]、DeePromoter [24] 和 Depicter [25] 等优秀工具，但他们并未考虑真核生物核心启动子中功能保守的过多序列基序。在这里，我们针对较小的启动子区域 [-100 至 +50] 提出了一种不同的架构，将简单的正则表达式策略与 CNN-LSTM 架构相结合。为此，我们广泛利用了深度神经网络的力量、核心启动子信号的知识 [4]、[6]、[29] 以及来自真核启动子数据库的高度可靠的启动子序列数据 [28]，并开发了启动子预测我们称之为“DeePromClass”的工具。我们采用了 TensorFlow 强大的机器学习系统来实现大规模的启动子和非启动子数据集训练和推理 [30]。应该注意的是，不仅序列信号的存在，而且整个核心启动子序列的退化结构排列对于转录起始机制的编排都很重要 [15]、[35]、[36]、[37]。因此，我们将主题搜索作为独立的外层与 CNN-LSTM 架构分开。我们使用其他内部深度学习网络验证了 DeePromClass 的性能，并与最先进的启动子预测工具进行了比较。

3.1 DeePromClass架构与CNN、LSTM、Inception、Resnet架构的比较

为了验证 DeePromClass 网络的性能，我们将 DeePromClass 网络与四个复杂模型进行了比较，(1) Inception 网络，(2) Resnet 网络，(3) 仅卷积神经网络模型，以及 (4) LSTM 仅神经网络模型.初始网络设计有 9 个带有降维块的初始 v1 模块，每个初始块包含 6 个不同的 1d 层卷积层。创建了一个 Resnet 模型，每个身份模块具有两个一维卷积层，每个残差模块具有三个一维卷积层。对于不同的块层集合，连接的网络进一步连接到密集层进行分类。该网络有 16 层深，每个身份模块都连接到一个残差模块。 CNN 模型仅由 8 个相互连接的卷积层和一个展平层组成。而 LSTM 网络由 1024 个单元的 8 个双向 LSTM 层构成，这些层随后连接到密集层。 DeePromClass 不同于两层，输入层连接到卷积层，然后卷积层的输出连接到 LSTM 层，LSTM 层又连接到密集层进行分类。将大小为 151 的相同输入层加载到五个网络。我们在秀丽隐杆线虫和人类数据集上测试了这些模型。线虫数据集的 Inception、Resnet、CNN、LSTM 和 CNN-LSTM 模型的测试精度值为 0.83、0.88、0.91、0.78 和 0.94，对于人类数据集，该值为 0.73、0.83、0.69、0.72和 0.84（图 2，补充表 1，在线提供）。据观察，ConvolutionalLSTM 模型比其他模型具有更好的性能（更高的准确性）。因此，CNN-LSTM 已被考虑用于在其他模型系统上进行训练。 Receiver operator 特征也已在训练测试数据集（验证数据集）的 20 个百分位数上实现，以验证 ConvolutionalLSTM 模型的性能。 DeePromClass 的性能（精度、召回率、F 分数和准确性）如图 3 和补充表 1 所示，可在线获取。据观察，DeePromClass 在所研究的所有五个物种中均取得了良好的性能。 DeePromClass 对酿酒酵母、秀丽隐杆线虫、黑腹果蝇、小家鼠和智人的测试准确率分别达到 90.6%、93.6%、91.8%、86.5% 和 84.0%，这被认为是对启动子预测工具。以前的工具没有报告线虫和酿酒酵母的深度学习模型。

3.2 DeePromClass 架构与最先进工具的比较

接下来，我们尝试将我们的工具的性能与之前发布的最先进工具即 CNNProm [20]、Deepromoter [24] 和 Depicter [25] 进行比较。 Song 等人最近的研究。 [38] 将 19 个可访问的原核生物和真核生物启动子预测工具的性能与 58 个基准启动子和非启动子数据集进行了比较。他们的结果表明，传统的机器学习和深度学习衍生工具在性能上优于信号、k-mer 或结构-基于工具。支持基于向量的方法 iProEP [39]、基于深度学习的方法 CNNProm、Deepromoter 和 Depicter 被发现是很好的预测器。作者强调 Depicter 是卓越的启动子预测器。然而，工具的性能值因物种而异 [38]。为训练模型选择的实际区域是 Deeppromoter 和 Depicter 的 [-249 到 50] 区域，而我们使用的是 [-100 到 50] 区域。因此，我们使用描述工具使用的 300 个核苷酸数据集训练了我们的模型，并将报告的性能与他们发表的文献进行了比较。然而，由于用于构建模型的物种选择因每种工具而异，因此无法直接进行比较。报告的精度和召回值如表 3 所示。CNNProm、DeePromoter 和 Depicter 主要集中在 Homo sapiens 和 Mus musculus 启动子的 TATA 和非 TATA 启动子分类上，因此我们分别为两个类训练 DeePromClass。结果表明，DeePromClass、Depictor 和 Deeppromoter 的性能与一种工具在特定物种或启动子类型方式上优于另一种工具相当。有趣的是，对于人类 TATA 和果蝇非 TATA 数据集，DeePromClass 优于其他工具（表 3）。应该注意的是，CNN-LSTM 架构可能看起来与 DeePromoter 的架构相似，除了架构因每个生物体模型的 CNN 和 LSTM 层数不同、数据建模和数据集本身不同而有很大差异。 DeePromClass 中不涉及数据扩充。 DeePromoter 取 300bp 的序列长度并将其细分为多个部分以增加数据集，而 DeePromClass 使用完整的序列长度而没有任何细分。我们还使用传统机器学习工具 iProEP 用于人类数据集的数据集测试了我们的工具，并观察到与我们的工具 (89%) 相比，iProEP 提供了更好的性能（灵敏度 1⁄4 92.3）。然而，与最近所有最先进的工具相比，我们工具的主要优势在于将给定序列分类为具有置信度得分的启动子；我们还提供了具有大量功能基序的生物学见解，这些基序也嵌入到预测的启动子区域中。启动子是序列的排列和启动子元件的组合。

3.3 DeePromClass Application

DeePromClass 首先获取输入序列，并根据“启动子置信度百分比”对输入序列进行分类，判断它是启动子序列还是非启动子序列。此外，它还列出了已识别序列中存在的核心启动子元件的名称。目前，DeePromClass 工具通过 Github 静态托管服务以源代码形式提供。我们提供了五个物种的编译模型，C. elegans、D. melanogaster、Homo sapiens、Mus musculus 和 S. cerevisiae，以及主要的“启动子查找器和分类器”脚本。用户需要下载工具包，并通过交互式 python 笔记本（如 jupyter 或 Googlecolab 笔记本）运行主脚本，并安装模块要求。测试 DNA 序列应以 Fasta 格式作为“Input_data.txt”提供给工具。序列的大小没有限制。该工具将大小为 151 个片段的启动子列表连同每个找到的可能启动子的索引一起输出到一个单独的文件中。这些启动子也根据在 151 个区域中发现的共识信号进行分类。提供了百分比信心分数以及发起人的起始指数。接近 100 的置信百分比范围 95-100 被认为是高度可靠的。低于 95 分的分数可能不是推荐人。工具中没有列出任何基序的启动子序列被预测为“无法分类”。 readme.txt 文件提供了关于使用该工具的清晰说明。该工具的示例预测输出结果如图 4 所示。DeePromClass 的源代码和相关数据集可在 https://github.com/hemanthkari/DeePromClass.git 上免费获得。

4.结论

启动子类的描述对于理解启动子序列的进化和顺式调控逻辑的多样性至关重要。在当前的研究中，我们构建了一个新颖的启动子描述工具 DeePromClass，其灵感来自近期深度学习在各个研究领域的繁荣。我们应用一维卷积神经网络 (1D CNN) 和递归神经网络 (LSTM) 来训练启动子和非启动子数据集，并集成多个启动子元素的正则表达式搜索策略以输出启动子预测结果。 DeePromClass 的性能与之前发布的基于深度学习的工具相当。然而，该工具的主要限制是对于整个基因组序列在这一点是由于当前方法定义的问题的计算复杂性。这里使用的一些模型在某些生物体上表现更好。此外，我们的工具可能需要通过超参数调整和其他模型物种的严格培训课程进行测试，以提高对生物学家的适用性。然而，我们的算法是可扩展的、可调的，并且在描述启动子类别方面是独一无二的，专家可以通过改变层数和特征映射以及实现新的启动子信号来提高模型的准确性。我们相信，我们的工作将增强更新更好的算法，将 DNA 单热编码与一系列实验确定的基序数据和结构信息相结合。它可能有助于启动子合成生物学设计更好的启动子。从今以后，我们将通过结合大量信号、结构和上下文特征，以及在其他几个模型系统和网络服务器实现上的训练来改进该工具。