摘要
为了解决非编码DNA如何确定不同细胞类型中的基因表达问题,文章提出了一种称为Enformer的深度学习框架。该框架能够整合基因组中远程交互的信息,提高了从DNA序列中进行基因表达预测的准确性。
论文地址:Effective gene expression prediction from sequence by integrating long-range interactions
方法
Transformer
因为卷积操作的局部性,以往的模型只能考虑转录起始位点 (TSS) 最多 20 kb 的序列元素,但增强子、抑制子和绝缘子等,可以影响远大于 20 kb 的基因表达。因此文章引入了基于自注意力的Transformer结构来解决这个问题。Transformer由注意力层组成,通过计算序列中所有其他位置的表示的加权和来转换输入序列中的每个位置。任意两个位置之间的注意力权重取决于它们当前表示向量的嵌入以及它们之间的距离。因此使用Transformer大大的增加了网络的感受野。
网络结构
具体网络结构如图1a左1。
图1
网络的架构由三部分组成:
- 7 个带池化的卷积块
- 11 个Transformer块
- 1 个裁剪层
最后加上进行逐点卷积、有2个分别用于人和鼠的分支的网络头。
Enformer 将一个热编码的 DNA 序列作为输入 (A = [1,0,0,0], C = [0,1,0,0], G = [0,0,1,0], T = [0,0,0,1], N = [0,0,0,0]) ,长度为 196,608 bp, 用于预测人类基因组的 5,313 个基因组轨迹和小鼠基因组的 1,643 个轨迹。每个896 长度 896 对应于 114,688 bp ,聚合到 128 bp 的 bin 中。带池化的卷积块首先将空间维度从 196,608 bp 减少到 1,536,因此每个序列位置向量代表 128 bp。然后,transformer 模块会捕获整个序列中的远程交互。裁剪层在每侧修剪 320 个位置以避免计算远端的损失最后,两个输出头预测生物体特定的轨迹。
多头注意(MHA)层用于共享整个序列的信息并模拟远程交互。每个头部有一组单独的权重:
w
q
∈
R
C
×
K
,
w
k
∈
R
C
×
K
和
w
v
∈
R
C
×
V
w^q \in R^{C \times K},w^k \in R^{C \times K}和w^v \in R^{C \times V}
wq∈RC×K,wk∈RC×K和wv∈RC×V,将输入序列
x
∈
R
L
×
C
x\in R^{L\times C}
x∈RL×C转化为查询
q
i
=
x
i
w
q
q_i=x_iw^q
qi=xiwq,key键
k
j
=
x
j
w
k
k_j=x_jw^k
kj=xjwk,值
v
j
=
x
j
w
v
v_j=x_jw^v
vj=xjwv。查询表示每个位置的当前信息,键表示每个位置将要关注的信息。它们的点积加上相对位置编码
R
i
j
R_{ij}
Rij形成了注意力矩阵。
实验
该模型在关注细胞类型特异性增强子、对 eQTL 数据的变异效应预测和MPRA 突变效果预测的问题上,与现有的模型进行对比,均取得了较好的结果。