
自2014年国际小麦测序联盟(IWGSC)发表了基于染色体长短臂的小麦参考基因组之后,小麦注释基因主要经历了三个主要的版本:IWGSC CSS版(2014年)、TGAC版和IWGSC 2017年版(RefSeq v1.0、v1.1和即将释放的v2.0)。在这期间发表的文章不可避免地使用了不同的注释版本,这对我们进行文献总结和开展后续研究带来了一定的困扰。各个版本基因ID之间的相互转换可以利用在线BLAST工具,但转换的效率不高。我们利用这次推送,将这三个主要版本之间的ID转换关系进行整理,希望能为大家节省一点时间。


进行不同ID之间的转换可采用Local BLAST的方式:1. 以最新的RefSeq V1.1注释版本为参考,利用makeblastdb创建BLAST数据库;2. 分别利用不同的基因注释版本当做Query序列进行Local Blast,参数选择“-num_algnments 1,-num_threads 8,-outfmt 6”,并按照TAB格式输出结果;3. 利用awk筛选blast结果,标准如下:identity > 99.5%,length > 100,e-value == 0.0;4. 利用Perl脚本以RefSeq V1.1为模板进行格式化输出为csv格式;5. 利用Excel软件打开数据文件,结合INDEX和MATCH函数批量转换。
相关数据下载(包含全部数据,可根据需要批量转换):
注:基因组相关数据可参考我们之前推送的文章:小麦基因组测序研究进展。
: