MXfold2

最新推荐文章于 2024-07-25 23:06:58 发布

吊儿郎当的凡

最新推荐文章于 2024-07-25 23:06:58 发布

阅读量397

点赞数 3

分类专栏： RNA结构预测文章标签：生物信息学模式识别数据挖掘深度学习机器学习

本文链接：https://blog.csdn.net/weixin_43269419/article/details/121188830

版权

RNA结构预测专栏收录该内容

13 篇文章 4 订阅

订阅专栏

RNA secondary structure prediction using deep learning with thermodynamic integration

Year: 2021
Authors: Kengo Sato, Manato Akiyama & Yasubumi Sakakibara
Journal Name: Nature Communications

Motivation

在多参数模型种经常会出现过拟合现象

Research Objective

实现一种更具鲁棒性的结构预测模型

Dataset

$\mathcal{D} = \{ (x^{(k)}, y^{(k)}) \}_{k=1}^K$ ，其中， $x^{(k)}$ 表示第 $k$ 个 RNA 序列， $y^{(k)}$ 表示 $x^{(k)}$ 所对应的二级结构。

Background

MXfold模型计算了每对碱基对的四种 (helix stacking, helix opening, helix closing, unpaired region) 折叠分数，具体结构如下图所示。输入的RNA序列长度为 $L$ ，每个碱基被编码为 $d$ 维嵌入，输入尺寸变为 $L \times d$ 。 Block1 中的卷积层使用了 layer normalization 和 CELU 激活函数， dropout的比例为 50% 用于防止过拟合。 Block2 中的隐藏单元数设置为 $\frac{d}{2}$ ， BiLSTM的每一层也使用了 layer normalization 和 CELU 激活函数， dropout的比例也为 50% 。现在，正向和反向分别输出了 $L×\frac{d}{2}$ 大小的矩阵，一个输出在行方向上扩展，一个输出在列方向上扩展，分别扩展为 $L×L×\frac{d}{2}$ 大小的矩阵，进而拼接成 $L \times L \times d$ 大小的矩阵，如图中 Concat 2D 所示。 Block3 中的标准化、激活函数、 dropout 方法与 Block1 和 Block2 相同。最后，将 $L \times L \times d$ 大小的矩阵通过三层 $h$ 个隐藏单元的 MLP中，输出 $L \times L \times 4$ 大小的矩阵即为第 $i$ 个核苷酸和第 $j$ 个核苷酸的 4 种折叠分数。其中， $d = 64$ ， $N_1 = 4$ ， $N_2 = 2$ ， $N_3 = 4$ ， $h = 32$ 。
在这里插入图片描述

Method

作者将MXfold模型计算出的分数和实验测得的能量参数相结合，计算序列 $x$ 结构 $y$ 的自由能 $f (x, y)$
$f(x, y) = f_T(x, y) + f_W(x, y)$
其中， $f_T(x, y)$ 为实验参数的贡献， $f_W(x, y)$ 为MXfold的贡献。

作者的目的是找出使目标函数 $\mathcal{L}$ 最小的神经网络参数 $λ$
$\mathcal{L}(λ) = \sum_{(x, y) ∈ \mathcal{D}}\{ (\max_{\hat{y} ∈ \mathcal{S}(x)}[f(x, \hat{y}) + Δ(y, \hat{y})] - f(x, y)) + C_1[f(x, y) - f_T(x, y)]^2 + C_2\| λ \|_2 \} \\ Δ(y, \hat{y}) = δ^{FN}×(\#of \ false-negative \ base \ pairs) + δ^{FP}×(\#of \ false-positivetive \ base \ pairs)$
其中，第一项为 hinge 损失， $\mathcal{S}(x)$ 为序列 $x$ 除 $y$ 之外的所有可能二级结构，使用 DP算法来预测 $\hat{y}$ ， $\hat{y})$ 为间隔项， $δ^{FN}$ 和 $δ^{FP}$ 均为超参数来控制敏感度和精确性，本文设置 $δ^{FN}=0.5$ ， $δ^{FP}=0.005$ 。第二项为了防止MXfold的输出与实验所得差距过大，第三项为 L2 正则化。作者规定 $C_1 = 0.125$ ， $C_2 = 0.01$ ，采用 Adam 优化器优化。

吊儿郎当的凡

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
MXfold2

RNA secondary structure prediction using deep learning with thermodynamic integrationYear: 2021Authors: Kengo Sato, Manato Akiyama & Yasubumi SakakibaraJournal Name: Nature CommunicationsMotivation在多参数模型种经常会出现过拟合现象Research Objective实现一种更具鲁棒性的结构预
复制链接

扫一扫

专栏目录