Sequential regulatory activity prediction across chromosomes with convolutional neural networks

Sequential regulatory activity prediction across chromosomes with convolutional neural networks
基于卷积神经网络的染色体序列调控活动预测

摘要

基因预测表型

从DNA序列预测大型哺乳动物基因组中细胞类型特异性(见CSDN)的表观遗传和转录谱。

利用CNN对启动子和远端调控元件进行识别,综合其内容,进行基因表达的预测

我们发现,对基因组变异对基因表达影响的模型预测与人类群体中eQTLs基础的因果变异很好地吻合,并可用于生成机制假设,以实现疾病位点的精确定位。

背景

尽管许多研究表明,在一系列人类疾病和特征中,基因型和表现型的变异之间存在很强的关系,但这种关系运作的机制仍不完全清楚(Boyle等,2017)。非编码变异尤其抑制了进展;通过全基因组关联研究(GWAS),大多数与表型统计相关的基因组位点不会改变编码序列,但只有极少数的机制已被彻底描述。
大量证据表明,许多非编码变异通过改变基因表达影响性状。反过来,基因表达决定了多细胞生物中细胞类型和状态的多样性(表观基因组学研究路线图等,2015)。因此,基因表达提供了一个易于处理的中间表现型,而改进的模型将有很大的价值。大型财团和许多个体实验室绘制了多种细胞的表观遗传和表达谱。
此外,最近人们认识到,许多数据可以使用机器学习作为潜在DNA序列的功能精确建模。
成功的转录因子(TF)结合预测模型、易访问的染色质和组蛋白修饰为基因组变异提供了机制洞察力和有用的解释。

尽管取得了这一进展,但在复杂的生物体中,从DNA序列预测细胞类型特异性基因表达的模型仍然难以找到。
现有的模型使用实验性的注释作为输入(例如,各种已知的监管属性的峰值调用),允许它们阐明这些注释之间的关系(Cheng et al. 2012;González等人。2015),但没有分析潜在序列在确定这些注释时的因果作用。
即使有实验内的训练数据来推断相关的序列基序,远端调控的复杂性(增强子可以与启动子在几十万个核苷酸上相互作用)挑战了当前的方法(Levine 2010;Long等人2016年)。
然而,从增强子生物学和3D染色体接触域的研究中得到的成熟的基因调控原则尚未完全纳入表达性机器学习模型中(Mifsud等人2015;Dekker和Mirny 2016年)。
对更大的序列和不同的实验数据进行建模,为提高预测精度提供了一条前进的道路。
更有效的模型将使研究人员能够描述一种组织或细胞类型的一个实例,并将其投射到具有不同基因组序列的个体。
在这里,我们使用新颖的机器学习算法,仅使用DNA序列作为输入,来学习预测数百种人类细胞类型的数千个表观遗传和转录谱。
通过使用该模型,我们预测了这数千个数据集的基因组变异的两个等位基因之间的差异,特别关注基因表达的预测变化。
我们证明了这一观察在鉴别GWAS基因座内可能的因果变异和机制方面的相当大的潜在价值。

结果

Baenji

Basenji是Basset的改进版,Basset建模基于“峰”的染色质轮廓,尤其关注DNase I超敏感,预测某位点是否开放。

改进:
(1)建模远端调控相互作用模型。

(2)预测更精细的分辨率,定量(相对于二进制)基因组谱,更适合于基因表达的动态范围(图1)。

不同:

对count data建模而不是peak data,所以预处理需要做的更~~,

预处理:

需要的数据:

  • BigWig coverage tracks
  • Genome FASTA file

下载hg19 FASTA文件。hg19.ml.fa、hg19.ml.fa.fai

从FANTOM5获取一些与心脏生物学相关的CAGE数据集(.bw文件)CNhs11760.bw、CNhs12843.bw、CNhs12856.bw。

接下来,我们希望选择基因组序列形成随机梯度下降batch,将它们分成训练/验证/测试集,并构建TFRecords方便后续使用。

最相关的选项是:

在膨胀卷积层之后,每个128 bp的区域对齐到一个向量,该向量考虑了大范围序列中的相关调控元素。最后,我们应用最后的width-one卷积层,对提供的每个数据集的该区域对齐读的归一化计数参数化多任务泊松回归(Hashimoto et al. 2016)。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值