Rfam——非编码RNA家族数据库
Rfam是一个RNA分类信息的数据库,根据多序列比对结果,二级结构的一致性,协方差模型对各种RNA及顺式作用元件进行了分类整理,网址如下
http://rfam.xfam.org/
最新版本为14.1, 在Rfam数据库中,包括以下3大功能类型的分子
-
ncRNA genes
-
cis-regulatory elements
-
self-splicing RNAs
进一步对其进行更为细致的划分,详细列表如下所示
(上图来自生信修炼手册)
在对这些数据进行分类时,提供了两个层次的分类,family
和clan
。对于family
而言,其成员是上述各种类型的RNA;对于clan
而言,其成员是各个family
。
通过官网的Browser
功能,可以方便的浏览数据库中的内容,根据类型的不同进行数据检索。
1. family
每个family
采用RF
开头的编号唯一识别,示意如下
以上图中的RF02924
为例,该家族的名字为skipping-rope
, 对应类型为Gene; sRNA
, 该家族包含来自360个物种的RNA分子。
对于多序列比对的信息,同时提供了seed
和full
两种,其中seed
是手工整理的已知的该家族成员的多序列比对结果,而full
是该家族所有成员序列的多序列比对结果。
2. clan
每个clan
采用CL
开头的编号唯一识别,示意如下,以下图中的CL00051
为例,包含了11个family
。
3. genome
示意如下
以human
为例,可以看到对应的序列数和family个数
点进去可以查看human
的family信息:
选择左侧栏的miRNA选项,就可以查到此数据库收录的人类miRNA:
4. sequence
根据序列检索
KB707684.1
对应的序列详情如下
通过FTP功能,可以下载该数据库中的内容,FTP链接如下
ftp://ftp.ebi.ac.uk/pub/databases/Rfam
可下载不同版本的数据库数据。
最新的14.1版本:
数据库中不仅提供了fasta
格式的序列信息,也提供了CM
模型,通过infernal
软件可以利用这些模型对RNA序列进行判断,从而分析RNA序列对应的family信息。
参考资料:
作者:生信修炼手册
链接:https://www.jianshu.com/p/2f63ee75cf27
来源:简书