第六章非编码RNA鉴定

最新推荐文章于 2024-07-01 13:54:05 发布

wangchuang2017

最新推荐文章于 2024-07-01 13:54:05 发布

阅读量1.8k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： RNA-seq miRNA-disease

本文链接：https://blog.csdn.net/u010608296/article/details/112612029

642 篇文章

订阅专栏

41 篇文章

订阅专栏

3 篇文章

订阅专栏

本文概述了非编码RNA的分类，重点介绍基于RNA二级结构和机器学习（如SVM）的鉴定策略。通过选择合理的初始特征集合，如ORF覆盖率和同源性特征，以及特征选择的过程，展示了如何使用SVM进行编码/非编码RNA的区分。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

阅读量： 154

主要为RNA-seq相关知识，部分内容作笔记自查使用。如有错误或遗漏还请海涵，可评论或邮箱联系。
最后修改时间：2020-09-07 14:38:07 星期一

非编码RNA，是指不需要翻译为蛋白，在RNA形式下即可行使其生物学功能的RNA分子。非编码RNA通常彼此协同作用，共同调控细胞生长、发育、凋亡等一系列重要的生理过程。

负责维系细胞基础代谢(housekeeping genes)
- rRNA
- tRNA
- ...
调控其他基因的转录和翻译
- miRNA
  成熟miRNA通过碱基互补配对，识别特定的目标RNA，下调其表达，从而达到对特定生物学过程进行调控的效果。miRNA在多种肿瘤的发生、发展中起核心调控作用，可以作为病程诊断与进展程度的marker
- lncRNA(long non-coding RNA)
  长度达几十乃至上百bp，包含多个exon，有可变剪切和polyA尾巴

目前的研究重点是，对新找到的lncRNA的鉴定和功能分析

基于RNA二级结构来鉴定新的非编码RNA
优点：速度快。pre-miRNA会形成发卡结构，tRNA是三脚结构，均可以通过二级结构确定
缺点：lncRNA的功能不依赖于特定二级结构，不适用
使用SVM等机器学习方法分类
不依赖多序列比对等外部信息，只使用转录本序列本身的信息，对miRNA和lncRNA同样适用，速度较快。

选择一个合理而有效的初始特征集合，对后续的feature selection乃至identification的效果都非常重要。若初始集合中混入不相关的feature，会严重影响后续feature selection的效率。

实践中主要会依据已有的文献、数据，结合自己的生物学直觉进行。以Coding Potential Calculator为例。根据相关文献并结合生物学背景，选取60个RNA序列水平的特征，作为初始特征集。

序列特征有很多种类可供选择，如下图所示

我们需要对如此多的特征进行筛选，得到针对特定分类目的表现较好的特征子集。我们希望在确保准确性的前提下，这个子集尽可能小，以加快计算速度。

紧接步骤1。首先利用前向搜索算法，从中筛选出11个feature作为初步特征子集。此时集合元素较少，可以基于广度优先策略进行完全搜索，最终得到6个features

其中，蓝色的3个特征，是基于RNA序列中利用概率模型预测得到的ORF的

黄色的3个特征是基于同源性信息的

基本的想法是，编码蛋白的mRNA，较不编码的non-coding RNA，会有更大的可能在蛋白数据库搜索中找到相似的蛋白。

即使non-coding RNA随机地匹配上若干蛋白片段，但因为其中没有真实的ORF，因此匹配会随机分散在多个区域，而不是一个特定的区域。

完全搜索
- 广度优先搜索
  对原始特征集合中所有可能的组合进行穷尽测试。但考虑到组合爆炸问题，实际应用中并不适用于很大的初始feature set。
启发式搜索
- 前向搜索(SFS)
  贪心思想。向空子集中依次尝试加入单个feature，留下表现最好的那个。接着再依次尝试加入剩余的单个feature，直到新加入的feature无法继续提升分类准确度为止。
  
  由于前向搜索中不能删除已经被选择的feature，可能会导致高度相关的feature同时被加入，造成冗余。
- 后向搜索(SBS)
  贪心思想。向全集中依次尝试删除单个feature，留下表现最好的子集。接着再依次尝试删除剩余的单个feature，直到新删除的feature无法继续提升分类准确度为止。
- 增L去R(LRS)
  每次训练时，增加L个特征，同时删除R个特征，L和R固定。该方法可以避免前/后向搜索中的信息重复
随机搜索
- 模拟退火算法
  引入随机因素以避免陷入局部最优
- 序列浮动选择
  从增L去R算法改进而来，每次增加的L和删除的R不是一个定值，而是浮动的。