第六章 非编码RNA鉴定

41 篇文章 14 订阅
3 篇文章 0 订阅

第六章 非编码RNA鉴定

 阅读量: 154

主要为RNA-seq相关知识,部分内容作笔记自查使用。如有错误或遗漏还请海涵,可评论或邮箱联系。
最后修改时间:2020-09-07 14:38:07 星期一


非编码RNA分类

非编码RNA,是指不需要翻译为蛋白,在RNA形式下即可行使其生物学功能的RNA分子。非编码RNA通常彼此协同作用,共同调控细胞生长、发育、凋亡等一系列重要的生理过程。

  • 负责维系细胞基础代谢(housekeeping genes)
    • rRNA
    • tRNA
    • ...
  • 调控其他基因的转录和翻译
    • miRNA
      成熟miRNA通过碱基互补配对,识别特定的目标RNA,下调其表达,从而达到对特定生物学过程进行调控的效果。miRNA在多种肿瘤的发生、发展中起核心调控作用,可以作为病程诊断与进展程度的marker
    • lncRNA(long non-coding RNA)
      长度达几十乃至上百bp,包含多个exon,有可变剪切和polyA尾巴

目前的研究重点是,对新找到的lncRNA的鉴定和功能分析


非编码RNA鉴定

  1. 基于RNA二级结构来鉴定新的非编码RNA
    优点:速度快。pre-miRNA会形成发卡结构,tRNA是三脚结构,均可以通过二级结构确定
    缺点:lncRNA的功能不依赖于特定二级结构,不适用

  2. 使用SVM等机器学习方法分类
    不依赖多序列比对等外部信息,只使用转录本序列本身的信息,对miRNA和lncRNA同样适用,速度较快。


使用SVM分类步骤

一、 确定初始特征集合(feature set)

选择一个合理而有效的初始特征集合,对后续的feature selection乃至identification的效果都非常重要。若初始集合中混入不相关的feature,会严重影响后续feature selection的效率。

实践中主要会依据已有的文献、数据,结合自己的生物学直觉进行。Coding Potential Calculator为例。根据相关文献并结合生物学背景,选取60个RNA序列水平的特征,作为初始特征集。


二、 特征选择(feature selection)

序列特征有很多种类可供选择,如下图所示

我们需要对如此多的特征进行筛选,得到针对特定分类目的表现较好的特征子集。我们希望在确保准确性的前提下,这个子集尽可能小,以加快计算速度。

紧接步骤1。首先利用前向搜索算法,从中筛选出11个feature作为初步特征子集。此时集合元素较少,可以基于广度优先策略进行完全搜索,最终得到6个features

其中,蓝色的3个特征,是基于RNA序列中利用概率模型预测得到的ORF的

  • Coverage
    • 预测得到的ORF占整个RNA序列长度的比例
  • ORF Integrity
    • 预测的ORF是否是完整的
  • LOG-ODD score
    • 对预测可靠性的评估。分数越高,预测得到的ORF越可靠

黄色的3个特征是基于同源性信息的

基本的想法是,编码蛋白的mRNA,较不编码的non-coding RNA,会有更大的可能在蛋白数据库搜索中找到相似的蛋白。

即使non-coding RNA随机地匹配上若干蛋白片段,但因为其中没有真实的ORF,因此匹配会随机分散在多个区域,而不是一个特定的区域。


2.1 特征选择的方法

  • 完全搜索
    • 广度优先搜索
      对原始特征集合中所有可能的组合进行穷尽测试。但考虑到组合爆炸问题,实际应用中并不适用于很大的初始feature set。
  • 启发式搜索
    • 前向搜索(SFS)
      贪心思想。向空子集中依次尝试加入单个feature,留下表现最好的那个。接着再依次尝试加入剩余的单个feature,直到新加入的feature无法继续提升分类准确度为止。

      由于前向搜索中不能删除已经被选择的feature,可能会导致高度相关的feature同时被加入,造成冗余。
    • 后向搜索(SBS)
      贪心思想。向全集中依次尝试删除单个feature,留下表现最好的子集。接着再依次尝试删除剩余的单个feature,直到新删除的feature无法继续提升分类准确度为止。
    • 增L去R(LRS)
      每次训练时,增加L个特征,同时删除R个特征,L和R固定。该方法可以避免前/后向搜索中的信息重复
  • 随机搜索
    • 模拟退火算法
      引入随机因素以避免陷入局部最优
    • 序列浮动选择
      从增L去R算法改进而来,每次增加的L和删除的R不是一个定值,而是浮动的。

三、 训练SVM

将6个feature组成的训练集输入到SVM模型中进行训练,得到能做编码/非编码RNA二分类的机器学习模型

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangchuang2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值