第六章 非编码RNA鉴定

本文概述了非编码RNA的分类,重点介绍基于RNA二级结构和机器学习(如SVM)的鉴定策略。通过选择合理的初始特征集合,如ORF覆盖率和同源性特征,以及特征选择的过程,展示了如何使用SVM进行编码/非编码RNA的区分。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第六章 非编码RNA鉴定

 阅读量: 154

主要为RNA-seq相关知识,部分内容作笔记自查使用。如有错误或遗漏还请海涵,可评论或邮箱联系。
最后修改时间:2020-09-07 14:38:07 星期一


非编码RNA分类

非编码RNA,是指不需要翻译为蛋白,在RNA形式下即可行使其生物学功能的RNA分子。非编码RNA通常彼此协同作用,共同调控细胞生长、发育、凋亡等一系列重要的生理过程。

  • 负责维系细胞基础代谢(housekeeping genes)
    • rRNA
    • tRNA
    • ...
  • 调控其他基因的转录和翻译
    • miRNA
      成熟miRNA通过碱基互补配对,识别特定的目标RNA,下调其表达,从而达到对特定生物学过程进行调控的效果。miRNA在多种肿瘤的发生、发展中起核心调控作用,可以作为病程诊断与进展程度的marker
    • lncRNA(long non-coding RNA)
      长度达几十乃至上百bp,包含多个exon,有可变剪切和polyA尾巴

目前的研究重点是,对新找到的lncRNA的鉴定和功能分析


非编码RNA鉴定

  1. 基于RNA二级结构来鉴定新的非编码RNA
    优点:速度快。pre-miRNA会形成发卡结构,tRNA是三脚结构,均可以通过二级结构确定
    缺点:lncRNA的功能不依赖于特定二级结构,不适用

  2. 使用SVM等机器学习方法分类
    不依赖多序列比对等外部信息,只使用转录本序列本身的信息,对miRNA和lncRNA同样适用,速度较快。


使用SVM分类步骤

一、 确定初始特征集合(feature set)

选择一个合理而有效的初始特征集合,对后续的feature selection乃至identification的效果都非常重要。若初始集合中混入不相关的feature,会严重影响后续feature selection的效率。

实践中主要会依据已有的文献、数据,结合自己的生物学直觉进行。Coding Potential Calculator为例。根据相关文献并结合生物学背景,选取60个RNA序列水平的特征,作为初始特征集。


二、 特征选择(feature selection)

序列特征有很多种类可供选择,如下图所示

我们需要对如此多的特征进行筛选,得到针对特定分类目的表现较好的特征子集。我们希望在确保准确性的前提下,这个子集尽可能小,以加快计算速度。

紧接步骤1。首先利用前向搜索算法,从中筛选出11个feature作为初步特征子集。此时集合元素较少,可以基于广度优先策略进行完全搜索,最终得到6个features

其中,蓝色的3个特征,是基于RNA序列中利用概率模型预测得到的ORF的

  • Coverage
    • 预测得到的ORF占整个RNA序列长度的比例
  • ORF Integrity
    • 预测的ORF是否是完整的
  • LOG-ODD score
    • 对预测可靠性的评估。分数越高,预测得到的ORF越可靠

黄色的3个特征是基于同源性信息的

基本的想法是,编码蛋白的mRNA,较不编码的non-coding RNA,会有更大的可能在蛋白数据库搜索中找到相似的蛋白。

即使non-coding RNA随机地匹配上若干蛋白片段,但因为其中没有真实的ORF,因此匹配会随机分散在多个区域,而不是一个特定的区域。


2.1 特征选择的方法

  • 完全搜索
    • 广度优先搜索
      对原始特征集合中所有可能的组合进行穷尽测试。但考虑到组合爆炸问题,实际应用中并不适用于很大的初始feature set。
  • 启发式搜索
    • 前向搜索(SFS)
      贪心思想。向空子集中依次尝试加入单个feature,留下表现最好的那个。接着再依次尝试加入剩余的单个feature,直到新加入的feature无法继续提升分类准确度为止。

      由于前向搜索中不能删除已经被选择的feature,可能会导致高度相关的feature同时被加入,造成冗余。
    • 后向搜索(SBS)
      贪心思想。向全集中依次尝试删除单个feature,留下表现最好的子集。接着再依次尝试删除剩余的单个feature,直到新删除的feature无法继续提升分类准确度为止。
    • 增L去R(LRS)
      每次训练时,增加L个特征,同时删除R个特征,L和R固定。该方法可以避免前/后向搜索中的信息重复
  • 随机搜索
    • 模拟退火算法
      引入随机因素以避免陷入局部最优
    • 序列浮动选择
      从增L去R算法改进而来,每次增加的L和删除的R不是一个定值,而是浮动的。

三、 训练SVM

将6个feature组成的训练集输入到SVM模型中进行训练,得到能做编码/非编码RNA二分类的机器学习模型

<think>我们被要求解释RNA测序技术(RNA-seq)的定义和基本概念。需要调用网络搜索工具进行检索,然后整合信息生成回答。回答要详细、清晰,具有实用性和可操作性。 按照要求,回答中不能使用第一人称,不能使用步骤词汇(如首先、然后),需要将答案组织为多个方法或步骤(但这里更可能是多个要点),每个要点间换行。 同时,注意格式要求:数学公式和代码的格式规范,以及最后必须添加相关问题部分。 根据问题,我们需要介绍RNA-seq是什么,包括其定义、原理、流程、应用等基本概念。 通过搜索,我们可以得到RNA-seq的基本信息: 定义:RNA测序(RNA-seq)是一种利用高通量测序技术来检测细胞中RNA的存在和数量的技术。它可以提供关于基因表达、转录本结构、可变剪接、基因融合等信息。 基本流程: 1. RNA提取:从生物样本中提取总RNA。 2. RNA片段化:将RNA打断成小片段(或者对于某些方法,先反转录成cDNA再片段化)。 3. 反转录:将RNA片段反转录成双链cDNA。 4. 文库构建:在cDNA片段两端加上测序接头,并进行PCR扩增。 5. 高通量测序:在测序仪上进行测序,得到大量的短序列读长(reads)。 6. 数据分析:将reads比对到参考基因组或转录组,进行定量和差异表达分析等。 应用: - 基因表达定量:测量不同基因的表达水平。 - 差异基因表达分析:比较不同条件下基因表达的差异。 - 转录本发现:鉴定新的转录本。 - 可变剪接分析:研究同一基因的不同剪接异构体。 - 基因融合检测:在癌症研究中,检测染色体易位导致的融合基因。 - 非编码RNA分析:研究长链非编码RNA(lncRNA)、微小RNA(miRNA)等。 技术特点: - 高通量:一次实验可以检测整个转录组。 - 高灵敏度:能够检测低丰度的转录本。 - 无需预先设计探针:与芯片技术相比,不需要预先知道基因组序列信息。 由于要求组织为多个方法或步骤,我们可以将回答分为几个部分:定义、基本原理、工作流程、应用领域、技术优势等。但注意避免步骤词汇,所以我们可以用换行分隔不同的主题。 另外,注意在回答中如果有公式或代码,按照要求格式化。不过在这个问题中,可能不太需要公式,但如果有表达量计算的公式,可以提及。例如,基因表达量通常用FPKM(Fragments Per Kilobase of transcript per Million mapped reads)或TPM(Transcripts Per Million)来标准化。它们的公式如下: FPKM = (片段计数 * 10^9) / (基因长度 * 总片段数) TPM = (片段计数 / 基因长度) * (1 / 总归一化因子) * 10^6 但如果没有特别需要,也可以不写公式。考虑到用户问题只是基本概念,我们可以选择不深入公式,但如果提到标准化方法,可以简单用行内公式。 最后,在回答之后,必须添加相关问题部分,标题为“§§相关问题§§:”,然后列出三个相关问题。 现在,我们整合信息,生成回答。</think>### RNA测序技术(RNA-seq)定义与基本概念 RNA测序(RNA-seq)是一种利用高通量测序技术全面分析细胞中**转录组**(所有RNA分子)的方法。通过捕获RNA的种类、数量和序列信息,揭示基因表达动态和调控机制。 #### **核心原理** - **RNA提取与文库构建**: 从生物样本(如细胞、组织)中提取总RNA,富集mRNA(通常用poly-A尾捕获法或rRNA去除法)。随后将RNA片段化,反转录为双链cDNA,添加测序接头,构建测序文库。 - **高通量测序**: 文库在二代测序平台(如Illumina)上测序,产生数百万至数十亿条短序列读长(reads)。 - **生物信息学分析**: 读长通过比对(如STAR、HISAT2)映射到参考基因组或转录组,实现: - **基因定量**:计算基因/转录本表达量(常用FPKM、TPM标准化)。 $$ \text{TPM} = \frac{ \text{Reads mapped to gene} / \text{Transcript length (kb)} }{ \sum (\text{Reads per kb}) } \times 10^6 $$ - **差异表达分析**:识别不同条件(如疾病vs健康)下的差异基因(工具如DESeq2、edgeR)。 - **结构变异检测**:发现可变剪接、融合基因、新转录本等。 #### **关键应用领域** - **基因表达谱分析**:定量不同细胞类型或处理条件下的基因活性。 - **疾病机制研究**:识别癌症、遗传病等中的异常表达基因。 - **功能基因组学**:注释非编码RNA(如lncRNA、miRNA),研究调控网络。 - **单细胞RNA-seq**:解析细胞异质性(如肿瘤微环境)。 #### **技术优势** - **高灵敏度**:可检测低丰度转录本。 - **无需预设探针**:相比芯片技术,能发现新型RNA。 - **宽动态范围**:定量精度跨越多个数量级。 #### **典型流程示例(代码片段)** ```bash # 质量控制(FastQC) fastqc sample.fastq # 序列比对(STAR) STAR --genomeDir /ref_index --readFilesIn sample.fastq # 表达定量(featureCounts) featureCounts -a annotation.gtf -o counts.txt aligned.sam ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangchuang2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值