seqkit根据基因id_小麦注释基因不同ID之间的转换

a5e68a8dafbf81dec71f23b0f4a7c8b9.png

自2014年国际小麦测序联盟(IWGSC)发表了基于染色体长短臂的小麦参考基因组之后,小麦注释基因主要经历了三个主要的版本:IWGSC CSS版(2014年)、TGAC版和IWGSC 2017年版(RefSeq v1.0、v1.1和即将释放的v2.0)。在这期间发表的文章不可避免地使用了不同的注释版本,这对我们进行文献总结和开展后续研究带来了一定的困扰。各个版本基因ID之间的相互转换可以利用在线BLAST工具,但转换的效率不高。我们利用这次推送,将这三个主要版本之间的ID转换关系进行整理,希望能为大家节省一点时间。

7580d22e53be52e00608833e0f55e289.png 3fa7c061dc18e55d5bf2c63fe1310dff.png

进行不同ID之间的转换可采用Local BLAST的方式:1. 以最新的RefSeq V1.1注释版本为参考,利用makeblastdb创建BLAST数据库;2. 分别利用不同的基因注释版本当做Query序列进行Local Blast,参数选择“-num_algnments 1,-num_threads 8,-outfmt 6”,并按照TAB格式输出结果;3. 利用awk筛选blast结果,标准如下:identity > 99.5%,length > 100,e-value == 0.0;4. 利用Perl脚本以RefSeq V1.1为模板进行格式化输出为csv格式;5. 利用Excel软件打开数据文件,结合INDEX和MATCH函数批量转换。

相关数据下载(包含全部数据,可根据需要批量转换):

注:基因组相关数据可参考我们之前推送的文章:小麦基因组测序研究进展

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值