gff3转mysql_科学网-把GFF3文件导入MySQL数据库-闫双勇的博文

什么是GFF3?这个一种序列注释文件的格式,基因组注释数据常常会用这种格式来记录序列注释信息,关于这种格式的更多信息,可以在这里学习:http://www.sequenceontology.org/gff3.shtml

这里简单说下,怎样把GFF3文件导入MySQL数据库,导入了以后使用比较方便。我用的是ubuntu 14.04系统。如果使用其它系统的,仅供参考。系统需要安装MySQL数据库以及bioperl,关于bioperl有兴趣的朋友可以到这里序列(www.bioperl.org),关于perl和MySQL这里也提供点我云盘里的参考资料:http://yunpan.cn/cK3zPydGY6c7Q (提取码:36ad)

1 在MySQL数据库中建立一个用于储存GFF3格式数据的数据库

mysql> create database MUS_7 -u root -p  XXXXXXXX;

其中create database是MySQL中的命令,MUS_7是新建的数据库名,-u选项,表示用户名,用户名参数为root,-p 参数后接MySQL数据库的密码。这样就能建立一个名为MUS_7的数据库

2 将GFF3文件导入MySQL数据库中

从网上下载GFF3格式的文件,如从rice_r7_all_tilling_path.gff3,然后用下列命令导入MySQL数据库

bp_seqfeature_load -f   -c -d MUS_r7 -u root -p xxxxxxxx all.gff3 all.con

bp_seqfeature_load是一个脚本文件,所以系统中需要有这个脚本文件。关于这个脚本的用法可以用命令bp_seqfeature_load查询。-f选项的含义:

Activate fast loading. (default 0) Only available for some adaptors.

-c选项的含义:

Create the database and reinitialize it (default false) Note, this

will erase previous database contents, if any

如果是新建的数据库需要用这个选项,如果是往已有的数据库中添加数据,用这个选项就坏菜了,把原来数据都清除了

-d MUS_r7,表示导入的数据库为MUS_r7,-u -p及后面的参数和上文含义相同。all.gff3为GFF3文件。all.com,为和gff3文件对应的参考序列。这个得配套,要不然肯定会报错。

我传的all.gff3文件大小为:78M,all.con文件为:365M。文件比较大,要把这些东西都传上去,得花不少时间,总时间为:63245.07秒,17.5小时。插入后的效果图如下。

8d04f68e634a376713fdfacb0cc411ff.png

我的MySQL数据库中有三套水稻基因组的注释数据。这三套数据,参考序列都是一样的,但注释数据则不一样,所以对同一个水稻基因组序列,利用这三套数据同时分析,可能得到的信息会更多。当然,这个数据也可以和其它数据,如全基因组的多态信息进行整合,这样使用更加方便

转载本文请联系原作者获取授权,同时请注明本文来自闫双勇科学网博客。

收藏

分享

分享到:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值