Constraint generation(CG) approach

最新推荐文章于 2024-07-25 16:05:31 发布

吊儿郎当的凡

最新推荐文章于 2024-07-25 16:05:31 发布

阅读量147

点赞数 1

分类专栏： RNA结构预测文章标签：机器学习生物信息学模式识别

本文链接：https://blog.csdn.net/weixin_43269419/article/details/121150921

版权

RNA结构预测专栏收录该内容

13 篇文章 4 订阅

订阅专栏

Efficient parameter estimation for RNA secondary structure prediction

Year: 2007
Authors: Mirela Andronescu, Anne Condon, Holger H. Hoos, David H. Mathews, and Kevin P. Murphy
Journal Name: Bioinformatics

Motivation

基于自由能的RNA二级序列预测模型Turner99，没有有效、快速的参数估计方法（使用大量结构数据和自由能数据训练）。
数据集中的最小自由能(MFE)也许有噪声。

Research Objective

提出一种能应用于大样本的自由能参数计算方法（CG方法），且对自由能噪声具有鲁棒性。

Dataset

$y_x) ∈ \mathcal{S}$ ，其中 $y_x$ 为序列 $x$ 的真实MFE结构。
$y_x, e_x) ∈ \mathcal{T}$ ，其中 $e_x$ 为结构 $y_x$ 的自由能。

Background

已知序列 $x$ ，目标为预测具有最小自由能的结构 $y$ 。序列 $x$ 和结构 $y$ 的自由能计算公式为
$\bm{θ}) = c(x, y)^T\bm{θ} = \sum_{k=1}^K c_k(x, y)θ_k$
其中 $K$ 是特征的个数， $c_k(x, y)$ 为特征 $k$ 在出现在结构 $y$ 中的次数， $θ_k$ 是特征 $k$ 的能量参数。
在这里插入图片描述

CONTRAfold模型使用最大可能性(ML)方法来估计参数。定义在序列 $x$ 和自由能参数 $\bm{θ}$ 确定的条件下，结构为 $y$ 的概率为
$\bm{θ}) = \frac{1}{Z(x, \bm{θ})}exp(-\frac{1}{RT}ΔG(x, y, \bm{θ}))$
其中， $R$ 是气体常数， $T$ 是绝对温度， $\bm{θ})$ 为分段函数。
$\bm{θ})$ 为凸函数，可以基于梯度优化概率对数 $L_{\mathcal{S}}(\bm{θ})=\sum_{(x, y_x) ∈ \mathcal{S}}logp(y_x|x, \bm{θ})$ ，来估计参数 $\bm{θ}$ 。
因为数据集中的 $e_x$ 可能存在噪声，作者在概率中加入了精度为 $τ$ 的高斯分布，即
$\bm{θ}) \propto L_{\mathcal{S}}(\bm{θ}) - τ\sum_{(x, y_x, e_x) ∈ \mathcal{T}}(e_x - c(x, y_x)^T\bm{θ})^2$
论文中原式为 $L_{\mathcal{S}}(\bm{θ}) + τ\sum_{(x, y_x, e_x) ∈ \mathcal{T}}(e_x - c(x, y_x)^T\bm{θ})^2$ ，但高斯分布的指数项有 $-\frac{1}{2}$ ，所以我认为应把 $+$ 变为 $-$ 。直观上来看，当误差越小时概率越大。如理解有误请大佬指正。
这种方法存在两个问题

算力要求过高
该模型不能处理缺失（特征不完全）的数据集。

Method

非最优的结构 $y$ 的自由能大于MFE结构 $y_x$ 的自由能，约束表示为
$y_x, \bm{θ}) < ΔG(x, y, \bm{θ})$
其中， $y_x) ∈ \mathcal{S}$ ， $Y_x \setminus \{y_x\}$ ， $Y_x$ 是序列 $x$ 的所有可能的二级结构集合。
因为数据集中的 $e_x$ 可能存在噪声，作者引入了松弛变量 $δ_{x, y} ≥ 0$ 。放松后的约束表示为
$y_x, \bm{θ}) < ΔG(x, y, \bm{θ}) + δ_{x, y} \\ (c(x, y_x) - c(x, y))^T\bm{θ} - δ_{x, y} ＜ 0 \\ M_{\mathcal{S}}\bm{θ} - \bm{δ} ＜ 0$
其中， $M_{\mathcal{S}}$ 为 $c(x, y_x) - c(x, y))^T$ ， $\bm{δ}$ 为 $δ_{x, y}$ 向量。
优化问题表示为
$\begin{aligned} &min \quad \|\bm{δ}\|_2^2 \\ & s.t. \quad \begin{array} {l}{M_{\mathcal{S}}\bm{θ} - \bm{δ} ＜ 0} \\ {\bm{δ} ≥ 0} \end{array} \end{aligned}$

作者又加入了数据集 $\mathcal{T}$ ，约束表示变为
$y_x, \bm{θ}) - \xi_x = c(x, y_x)^T\bm{θ} - \xi_x = e_x \\ M_{\mathcal{T}}\bm{θ} - \bm{\xi} = \bm{e}$
其中， $\xi_x$ 为预测 $e_x$ 的误差， $M_{\mathcal{T}}$ 为 $c(x, y_x)^T$ ， $\bm{\xi}$ 为 $\xi_x$ 向量， $e$ 为 $e_x$ 向量。
优化问题改变为
$\begin{aligned} &min \quad (1-λ)\frac{1}{|\mathcal{S}|}\| \bm{m}^T\bm{δ} \|_2^2 + λ\frac{1}{|\mathcal{T}|}\| \bm{\xi} \|_2^2 \\ & s.t. \quad \begin{array} {l}{M_{\mathcal{S}}\bm{θ} - \bm{δ} ＜ 0} \\ {M_{\mathcal{T}}\bm{θ} - \bm{\xi} = \bm{e}} \\ {\bm{δ} ≥ 0} \end{array} \end{aligned}$
其中， $|\mathcal{S}|$ 代表集合 $\mathcal{S}$ 的样本数， $m_x$ 为用于计算序列 $x$ 的 $M_{\mathcal{S}}$ 的约束个数的倒数。本人理解的约束个数为特征数量，即将 $\bm{δ}$ 进行标准化，防止因特征数过多导致的 $\bm{δ}$ 过大。 $\bm{m}$ 为 $m_x$ 的向量，超参数 $0 \leq λ \leq 1$ 控制 $\mathcal{S}$ 和 $\mathcal{T}$ 的相对重要性。
如果某个特征很少甚至没有出现在数据集中，那么该特征所对应的能量参数 $θ$ 就会失去限制。所以作者加入限制，即预测出的能量参数 $θ$ 不能超出Turner99能量参数 $θ_0$ 的一定范围，表示为
$θ_0 - B ≤ θ ≤ θ_0 + B$
其中， $B$ 为超参数。

上述优化问题的限制数量会随着输入尺寸指数性增加，因为集合 $Y_x$ 的尺寸随着数据集 $\mathcal{S}$ 的尺寸指数性增加。所以，作者采取迭代的方法，将 $M_{\mathcal{S}}\bm{θ} - \bm{δ} ＜ 0$ 改为
$c(x, y_x) - c(x, y'))^Tθ^{(i)} - δ_{x, y'}^{(i)} < 0$
其中， $y^{'}$ 为使用上一轮迭代参数 $θ^{(i-1)}$ 预测的结构。预测方法用的是SimFold和Mfold。

Future Work

当特征覆盖率较小时，ML模型更加稳健。所以作者计划将CG模型和ML模型相结合，用ML估计少量不可靠参数，用CG估计剩余参数。作者还将探讨如何引入替代特征，例如同轴碱基对堆叠和多环未配对片段中的不对称性，来改进 RNA 二级结构预测。

吊儿郎当的凡

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Constraint generation(CG) approach

Efficient parameter estimation for RNA secondary structure predictionYear: 2007Authors: Mirela Andronescu, Anne Condon, Holger H. Hoos, David H. Mathews, and Kevin P. MurphyJournal Name: BioinformaticsMotivation基于自由能的RNA二级序列预测模型Turner99，没有有效、快速的参数估计方
复制链接

扫一扫

专栏目录