论文解读:iDHS-Deep: an integrated tool for predicting DNaseI hypersensitive sites by deep neural networ

iDHS-Deep:一种通过深度神经网络预测DNase I超敏感位点的集成工具

论文期刊:Briefings in Bioinformatics

web-server: http://lin-group.cn/server/iDHS- Deep/

主要工作:

1.开发了一个基于深度学习的算法(CNN+LSTM)来识别未知序列区域是否潜在的DHS位点

2.基于五折交叉验证和独立测试数据验证了模型的优越性

3.搭建了一个网页服务器检测小鼠基因组中不同组织和发育阶段的DHSs

4.讨论了DHSs在已知基因和GC富集区域的分布

研究背景

DHS位点是指染色质中DNase I酶的超敏感区域,它是非编码区的重要组成部分,包含多种调控元件,如启动子、增强子、转录因子结合位点等。此外,相关的疾病(或性状)位点通常在DHS区域富集。因此,DHS区域的检测具有重要意义。

数据收集

收集了小鼠基因组中多个组织和发育阶段的DHS序列。为了保证模型的稳定性,我们只选择序列长度在50 ~ 300 bp之间的DHSs作为阳性样本。对于阴性样本的构造,首先选取相邻DHSs之间长度大于10 000 bp的序列片段作为候选阴性样本。然后,设置每个选定序列片段的中心点坐标,根据根据规则(p±1000×n, n= 0,1,2,…)取p的侧翼区域坐标表直到两个相邻的序列片段两端坐标均小于2000 bp。最后提取这些坐标两侧任意长度50 ~ 300 bp的序列片段作为阴性样本。我们将最终的数据集按照7:3的比例划分为训练数据集和独立数据集。

模型构建

我们利用CNN和LSTM构建了一个预测模型iDHS-Deep来预测DHS位点。该模型包括三个模块:输入模块、特征提取模块和分类模块。

 输入模块

我们直接给四个碱基赋不同的正整数。因此,一个任意的DNA序列可以被转换成一串数字。对于长度小于300bp的DNA序列,我们用pad_sequence函数填充0,从而得到长度为300的DNA序列。然后生成形状为(samples,sequence_length)的二维整数张量。嵌入层可以将二维整数张量转换为一个(samples,sequence_length, embeding_dimension)的三维张量。

 特征提取模块

特征提取模块负责从DNA序列中寻找有效特征。它的基本架构由五个不同的层组成:第一卷积层、第一池化层、第二层卷积层、第二层池化层和一个LSTM层。利用卷积层进行特征提取,利用整流运算(ReLU)传播正输出,消除负输出。然后,利用最大池层进行降维,帮助提取更高层次的特征。在这个集成模块中,卷积层和池化层使网络能够从更大的空间范围中提取特征,并可能捕获序列主题之间的交互。接下来的LSTM层进一步捕获序列中的短期和长期依赖关系,并从池中的序列模式中提取上下文特征。

分类模块

 采用LSTM后的全连接层挖掘深度隐藏的DNA序列特征和全局序列顺序信息。最后,将全连接层的输出向量作为softmax层的输入,生成查询序列对应的分类概率。

训练模型

在验证中,对原始数据集进行分组,其中一部分作为训练集,另一部分作为验证集,然后用训练集对分类器进行训练,用验证集对分类器进行测试,以评价模型的性能。在实践中,机器学习模型的泛化能力还需要在新的独立数据集上进一步检验。因此,我们首先使用5倍交叉验证策略对分类模型进行检验。一旦确定了模型,将应用独立的数据集检验进一步评估模型的性能。

结果和讨论

 基于不同组织和不同发育阶段的模型产生的AUROC分别为0.88-0.96和0.90-0.95

     图C显示跨单元类型验证中AUROC值的热图           图D显示交叉发展阶段验证AUROC值的热图

 将iDHS-Deep与其他已发表的方法进行了比较

结论

DHSs的识别有助于在特定的、研究充分的基因中确定许多不同调控元件的精确位置。本文开发了基于CNN - LSTM的iDHS-Deep方法,以序列特征识别小鼠基因组中不同组织和发育阶段的DHSs。模型的性能已经通过5倍交叉验证和独立测试得到验证。该方法具有良好的预测性能,也证明了CNN-LSTM能够提取出有效的预测小鼠DHSs的特征。根据提出的模型,我们建立了一个自由的web服务器来判断一个未知序列是否为潜在的DHS。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值