山东大学2019级软件工程应用与实践——基于人工智能的多肽药物分析问题(五)

2021SC@SDUSC

基于人工智能的多肽药物分析问题

主题:肽与HLA分子结合预测研究(5)
论文学习
循环神经网络

用于训练的模型架构由三层双向门控循环单元(BiGRU)和一个注意力层堆叠而成。GRU是RNN的一种变体。与RNN类似,GRU具有循环隐藏状态,以此处理可变长度序列,该状态的每次激活都依赖于前一次的激活。GRU和RNN的区别在于循环隐藏状态的更新,这是克服训练模型中梯度消失或爆炸以捕获长期依赖的核心部分。具体而言,GRU建议推导每个时间步 t 的隐藏状态 h t h_t ht 的向量表示,如下所示:

z t = σ ( W z x t + U z h t − 1 + b z ) z_t = σ(W_zx_t+U_zh_{t-1}+b_z) zt=σ(Wzxt+Uzht1+bz)
r t = σ ( W r x t + U r h t − 1 + b r ) r_t = σ(W_rx_t+U_rh_{t-1}+b_r) rt=σ(Wrxt+Urht1+br)
h t = ( 1 − z t ) ○ h t − 1 + z t ○ φ ( W h x t + U h ( r t ○ h t − 1 + b h ) h_t = (1 − z_t )○h_{t−1} + z_t ○ φ(W_hx_t+U_h(r_t○h_{t-1}+b_h) ht=(1zt)ht1+ztφ(Whxt+Uh(rtht1+bh)

其中 x t x_t xt 是输入向量, h t h_t ht 是输出向量, z t z_t zt 是更新门向量, r t r_t rt 是重置门向量,W,U和b是参数矩阵和向量,σ是logistic sigmoid函数,φ是双曲正切。

至于BiGRU,它将GRU的神经元分成两个方向,一个为正时间方向(正向状态),另一个为负时间方向(反向状态)。通过使用两个时间方向,可以使用来自当前时间帧的过去和未来的输入信息。

注意力模块

注意力模块与BiGRU模块相结合,使49种氨基酸的长期依赖性建模更容易。注意力机制首先由Bahdanaau等人提出,但文章使用了Raffel和Ellis提出的注意力类型。给定一个在每个时间步产生隐藏状态 h t h_t ht 的模型,基于注意力的模型计算一个“上下文”向量 c 作为状态序列 h 的加权平均值

e t = σ a ( h t ) , α t = e x p ( e t ) ∑ k = 1 T e x p ( e k ) , c = ∑ t = 1 T e x p ( α t h t ) e_t = σ_a(h_t), α_t = \frac{exp(e_t)}{\sum\nolimits_{k=1}^Texp(e_k)}, c = \sum\nolimits_{t=1}^Texp(α_th_t) et=σa(ht),αt=k=1Texp(ek)exp(et),c=t=1Texp(αtht)
其中 σ a σ_a σa 是仅依赖于 h t h_t ht 的可学习函数。
在这里插入图片描述

模型训练

训练前,按照用于pan-等位基因预测的NetMHCpan方法将HLA等位基因转化为伪序列(即,每个HLA等位基因转化为位于肽4.0埃内的34个氨基酸残基)。然后,将肽与HLA伪序列连接。如果组合序列的长度小于49个氨基酸,将用伪氨基酸“X”作为填充。one-hot编码用于氨基酸表示(即,将每个氨基酸转换为20个0和1个1的唯一载体)。
采用两个步骤进行可靠的模型训练。首先,使用原始数据集进行基本模型训练。然后,使用初步模型选择高置信度伪模型阳性/阴性HLA-肽对。将选定的伪对添加到原始数据集中,平衡训练数据,以训练最终模型。其他参数如下:dropout rate设置为0.2,使用sigmoid函数作为激活函数,使用二进制交叉熵(BCE)进行损失计算,使用默认学习率为0.001的Adam优化器进行参数优化。

五折交叉验证

五重交叉验证用于评估模型的健壮性。在训练之前,数据集被随机划分为五个不重叠的子集。交叉验证过程重复五次,每一子集用作验证集,其余子集用作训练集。将五个验证集的结果取平均值,以获得最终结果。执行100个epoch,如果验证精度优于前面的训练轮次,则保存模型。

评估指标

AUC(Area Under Curve)下的面积是模型和软件比较的主要测量值。ACC(Accuracy)用于单标记HLA等位基因结合模型的性能评估。精度 Precision[true positives/(true positives + false positives)]和召回率 recall [true positives/(true positives + false negatives)]用于说明免疫原性模型的重要性。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值