python lncrna_lncRNA分析

目前人们对lncRNA认识还处在初级阶段,lncRNA起初被认为是基因组转录的“噪音”,是RNA聚合酶II转录的副产物,不具有生物学功能。然而大量研究表明,lncRNA在细胞核内、核外,通过染色质修饰,转录调控,转录后调控等多种方式调节基因表达,在肿瘤发生发展中具有重要作用。

一般来说,lncRNA功能研究的主线包含3个主要步骤:

(1)高通量筛选。全转录组测序和lncRNA芯片是目前最常用的技术手段,通过这种高通量的筛选方法,可以快速获得不同实验组间差异表达的lncRNA和mRNA。

(2)候选lncRNA的确定。通过生物信息学分析,从大量lncRNA 中筛选有潜在功能意义的lncRNA。

(3)目标lncRNA的功能分析与验证。根据上述生物信息分析推断出lncRNA可能的生物学功能,并设计相应的实验来验证假设是否成立。

编码能力预测以鉴别novel mRNA和lncRNA:

分别用CPC,CNCI,PfamScan三个软件来对novel transcript序列做编码能力预测

我们选取主流的三个预测软件官网:

鉴定标准如下:

CPC_threshold = 0,大于0的转录本为mRNA,小于0的为lncRNA

CNCI_threshold = 0,大于0的转录本为mRNA,小于0的为lncRNA

PfamScan:比对上Pfam蛋白数据库的为mRNA,没有比对上的为lncRNA

注意:1)cpc和PfamScan(  http://www.dxy.cn/bbs/thread/36426921#36426921  作者之前写过用法)需要先建立蛋白参考数据库,cpc可以下载Uniprot/swissprot蛋白序列

2)PfamScan输入的是蛋白序列,可以由cpc的预测结果得出。

预测完成之后选取三个软件的交集转录本作为novel coding和noncoding转录本

我们在筛选lncRNA的时候,取的是交集,这样筛选的结果会更加准确可靠。

很多LNCRNA因为命名不统一,所以网上查找起来很困难,有没有好用的数据库或者方法?

答: 主要是以NCBI为主,比较全面,便于查询。如果你主要关注人和小鼠的LncRNA的话,可以看看GENCODE,这个上面很全,经常更新,而且上面的命名NCBI也可以查询到。

其他物种的话,你可以看下Ensembl上面,他的注释gtf文件里面包含了所有的RNA,但是其中lncRNA比GENCODE要少一些。所有已知的LncRNA在NCBI上面都是可以查询的。NCBI,GENCODE,Ensembl这三个数据库的基因symbol基本一致。所以,如果是人和小鼠,你选择GENCODE比较好,如果是其他物种,就选择Ensembl吧

这篇文献主要介绍了lncScore,用python写的一个脚本,主要是依赖一个机器学习第三方库scikit-learn。它能够通过开放阅读框,外显子和最大编码子序列等11个特征参数对lncRNA进行筛选。为了加快lncScore的运行速度,主要采用多线程>分析,只需花费2分钟的时间就能够对64,756个转录本进行分类。

文章里用gencode数据库里的lncRNA数据做了验证

此工具与CPAT, CNCI 和 PLEK类似,我们的lncRNA流程里的编码潜能预测软件用的是CPC CNCI Pfam,貌似CPC也是这个团队开发的。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值