mysql like反义_[转载]关于小RNA高通量测序数据分析方法的研究

1 引言

小RNA(small

RNAs)主要指长度在18-30nt的一类非编码RNA(ncRNAs),在真核生物中,具有基因表达调控功能的小RNA主要有微小RNA(microRNAs,miRNAs)、内源小干扰RNA(endo-siRNAs)和piwi干扰RNA(piRNAs)。

piRNA长度集中在26-31nt,目前只在动物的生殖系细胞及干细胞中被发现,其主要功能是参与转座子的沉默[1,2].

miRNAs和endo-siRNAs长度主要集中在20-24nt. miRNAs在动植物和微生物中都普遍存在,目前在miRBase

14数据库中已包含115个物种的12627条记录[3]. 在细胞质中,miRNAs与AGO1等蛋白形成RISC

复合体(RNA-induced silencing complex),

RISC通过miRNA与特定的mRNA靶基因互补配对,在配对区域的中间位置,AGO1通过对mRNA的切割促使其降解或者通过翻译抑制实现转录后调控[4-6].

据估计一个物种中约1/3的基因会受到miRNA的调控[7],大量的实验也表明miRNAs参与了诸多生命过程的调控,例如细胞周期,细胞分化,组织器官的发生,营养代谢,信号途径以及对外界生物的非生物的环境的反应[9-12];同时,miRNAs在生产实践与临床治疗上也具有很大的应用前景[13,14].

小分子干扰RNA(siRNAs)最初在植物转录后基因沉默现象中被报道,长度在20-25nt,来自外源的双链核糖核酸(dsRNA)切割产生[15].

随着小RNA研究的深入发展,大量的endo-siRNAs被发现,在植物体内,endo-siRNAs目前可以分为三种类型:(1)trans-acting

siRNAs(ta-siRNAs),21nt,功能与miRNAs类似,与AGO1或AGO7组成RISC 复合体参与转录后调控。 (2)

Natural-antisense siRNAs(nat-siRNAs),21nt和24nt,

21nt的nat-siRNAs功能与miRNAs类似,参与转录后调控。 (3)Repeat-associated

siRNAs(ra-siRNAs),24nt,参与染色体水平的基因沉默、抑制转座子的转座[16-18]. 显然,

生命体内还存在许多具有重要功能的small RNAs. 如何鉴定与发现这些RNA是值得人们思索的重要问题。

以往用于寻找miRNAs等小RNA的方法有实验克隆法,计算机预测法[19-23].

克隆法可以直接用于鉴定新小RNA,是初期发掘小RNA的常用方法,不足之处是实验周期较长,对低表达的小RNA的发现能力十分有限。

计算机预测法多是针对某一已知的小RNA特征设计算法,从全基因组或EST数据库中快速发掘大量潜在的小RNA,一定程度上弥补了克隆法的缺点,然而,预测的小RNA最终还需要实验证明,同时计算机预测法对新类型小RNA的发掘能力十分有限。

随着第二代高通量测序技术的问世,以测序为中心的功能基因组学研究开始全面展开[24,25],其中的小RNA高通量测序(small

RNA-Seq)技术开始逐渐取代原始的小RNA发掘法方法,该法具有速度快、成本低、覆盖度深等多方面的优点,对鉴定与发现生命体内的小分子RNA及其功能与机理研究起极大的推动作用[26-28].

从最初应用454技术建立的谷类小RNA数据库(CSRDB,Cereal small RNAs Database)

[29],到应用Illumina/Solexs技术建立的拟南芥小RNA计划[30] (ASRP,Arabidopsis Small

RNA Project),small RNA-Seq已被广泛应用于特定发育阶段全基因组水平上的小RNA的鉴定与发现[31-34].

然而,在真核生物内小RNA种类繁多,高通量测序产生的数据量巨大,例如,一个水稻小RNA样本的Illumina测序数据可达2G大小,含有约1200万个测序片段(reads)读数,如何有效快速的处理这些数据,深入挖掘未知小RNA,是小RNA高通量测序数据分析的一个主要问题[35].

目前小RNA高通量测序数据的挖掘能力还十分有限,已发表文献中所挖掘出的小RNA也只是数据中很小的一部分,而用于数据挖掘的综合软件也不多见,多是针对某些特殊需求设计的单一功能软件。

目前的开源软件主要有LeARN[36]、miRDeep[37]、CASHX[34]等,LeARN是基于perl语言的已知ncRNAs注释程序,miRDeep是基于perl语言的miRNAs挖掘程序,CASHX是拟南芥小RNA计划组开发的,是基于perl和MySQl的存储程序,它的功能和数据库结构比较简单。

而目前少数几种可用于高通量数据分析的商业软件价格相对昂贵,中小实验室难以负担,并且单纯依赖商业软件的分析结果往往又不能满足客户的各种要求。本文从实际应用出发,为科研人员详细介绍了高通量数据的分析方法。

我们采用Perl语言和MySQL数据库构建了小RNA高通量测序数据分析平台。

该平台设计简单科学,效率和功能强大,能够被大多数的中小实验所采用;可以实现多位点reads分析,而这部分数据在以往的分析中常常是被过滤掉的;可以实现数据的综合分析,得到灵活多样的统计结果;同时数据库本身具有很强的扩展能力,可以为各种小RNA及未知小RNA的挖掘提

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值