2021SC@SDUSC
基于人工智能的多肽药物分析问题
主题:肽与HLA分子结合预测研究(5)
论文学习
循环神经网络
用于训练的模型架构由三层双向门控循环单元(BiGRU)和一个注意力层堆叠而成。GRU是RNN的一种变体。与RNN类似,GRU具有循环隐藏状态,以此处理可变长度序列,该状态的每次激活都依赖于前一次的激活。GRU和RNN的区别在于循环隐藏状态的更新,这是克服训练模型中梯度消失或爆炸以捕获长期依赖的核心部分。具体而言,GRU建议推导每个时间步 t 的隐藏状态 h t h_t ht 的向量表示,如下所示:
z
t
=
σ
(
W
z
x
t
+
U
z
h
t
−
1
+
b
z
)
z_t = σ(W_zx_t+U_zh_{t-1}+b_z)
zt=σ(Wzxt+Uzht−1+bz)
r
t
=
σ
(
W
r
x
t
+
U
r
h
t
−
1
+
b
r
)
r_t = σ(W_rx_t+U_rh_{t-1}+b_r)
rt=σ(Wrxt+Urht−1+br)
h
t
=
(
1
−
z
t
)
○
h
t
−
1
+
z
t
○
φ
(
W
h
x
t
+
U
h
(
r
t
○
h
t
−
1
+
b
h
)
h_t = (1 − z_t )○h_{t−1} + z_t ○ φ(W_hx_t+U_h(r_t○h_{t-1}+b_h)
ht=(1−zt)○ht−1+zt○φ(Whxt+Uh(rt○ht−1+bh)
其中 x t x_t xt 是输入向量, h t h_t ht 是输出向量, z t z_t zt 是更新门向量, r t r_t rt 是重置门向量,W,U和b是参数矩阵和向量,σ是logistic sigmoid函数,φ是双曲正切。
至于BiGRU,它将GRU的神经元分成两个方向,一个为正时间方向(正向状态),另一个为负时间方向(反向状态)。通过使用两个时间方向,可以使用来自当前时间帧的过去和未来的输入信息。
注意力模块
注意力模块与BiGRU模块相结合,使49种氨基酸的长期依赖性建模更容易。注意力机制首先由Bahdanaau等人提出,但文章使用了Raffel和Ellis提出的注意力类型。给定一个在每个时间步产生隐藏状态 h t h_t ht 的模型,基于注意力的模型计算一个“上下文”向量 c 作为状态序列 h 的加权平均值
e
t
=
σ
a
(
h
t
)
,
α
t
=
e
x
p
(
e
t
)
∑
k
=
1
T
e
x
p
(
e
k
)
,
c
=
∑
t
=
1
T
e
x
p
(
α
t
h
t
)
e_t = σ_a(h_t), α_t = \frac{exp(e_t)}{\sum\nolimits_{k=1}^Texp(e_k)}, c = \sum\nolimits_{t=1}^Texp(α_th_t)
et=σa(ht),αt=∑k=1Texp(ek)exp(et),c=∑t=1Texp(αtht)
其中
σ
a
σ_a
σa 是仅依赖于
h
t
h_t
ht 的可学习函数。
模型训练
训练前,按照用于pan-等位基因预测的NetMHCpan方法将HLA等位基因转化为伪序列(即,每个HLA等位基因转化为位于肽4.0埃内的34个氨基酸残基)。然后,将肽与HLA伪序列连接。如果组合序列的长度小于49个氨基酸,将用伪氨基酸“X”作为填充。one-hot编码用于氨基酸表示(即,将每个氨基酸转换为20个0和1个1的唯一载体)。
采用两个步骤进行可靠的模型训练。首先,使用原始数据集进行基本模型训练。然后,使用初步模型选择高置信度伪模型阳性/阴性HLA-肽对。将选定的伪对添加到原始数据集中,平衡训练数据,以训练最终模型。其他参数如下:dropout rate设置为0.2,使用sigmoid函数作为激活函数,使用二进制交叉熵(BCE)进行损失计算,使用默认学习率为0.001的Adam优化器进行参数优化。
五折交叉验证
五重交叉验证用于评估模型的健壮性。在训练之前,数据集被随机划分为五个不重叠的子集。交叉验证过程重复五次,每一子集用作验证集,其余子集用作训练集。将五个验证集的结果取平均值,以获得最终结果。执行100个epoch,如果验证精度优于前面的训练轮次,则保存模型。
评估指标
AUC(Area Under Curve)下的面积是模型和软件比较的主要测量值。ACC(Accuracy)用于单标记HLA等位基因结合模型的性能评估。精度 Precision[true positives/(true positives + false positives)]和召回率 recall [true positives/(true positives + false negatives)]用于说明免疫原性模型的重要性。