Stochastic context-free grammars for tRNA modeling
Year: 1994
Authors: Yasubumi Sakakibara, Michael Brown, Richard Hughey, I.Saira Mian, Kimmen Sjolander, Rebecca C.Underwood and David Haussler
Journal Name: Nucleic Acids Research
Research Objective
通过类似于构建 HMM 的方式 (CYK) 生成包含碱基配对信息的 SCFG 来创建 tRNA 的统计模型
Background
CFG 的 grammer 由以下三部分组成。第一部分是有限的字母表,对于 RNA 序列,字母表对应核苷酸 A , U , G 和 C 。第二部分是有限的非终端节点
S
1
,
.
.
.
,
S
n
S_1, ..., S_n
S1,...,Sn 和 根节点
S
0
S_0
S0 。第三部分是扩展非终端节点的规则集合 P ,终端节点序列由根节点
S
0
S_0
S0 通过规则
P
P
P 一步一步生成。
定义
S
S
S 为非终端节点,
a
a
a 表示终端节点。
P
P
P 含有以下几种规则。
S
→
a
S
a
S \rightarrow aSa
S→aSa 表示碱基对,比如
S
→
G
S
C
S \rightarrow GSC
S→GSC 代表 G-C 碱基对。
S
→
a
S
S \rightarrow aS
S→aS 和
S
→
a
S \rightarrow a
S→a 表示未配对碱基。
S
→
S
S \rightarrow S
S→S 表示该位置没有核苷酸。
S
→
S
S
S \rightarrow SS
S→SS 表示二级结构分支。具体如下图所示。
Method
CFGs 的语法针对于一个序列会产生不同的树。SCFGs 通过改变后的 CYK 算法选择概率最大的树(生成的结构),解决了这个问题(结构预测问题)。
序列
s
s
s 在一个 SCFG
G
G
G 所产生的所有树的概率之和为
P
(
s
∣
G
)
P(s|G)
P(s∣G) ,比较不同 SCFGs 所产生的概率即可确定 RNA 所在类别(分类问题)。