最近在做virus detection
用到NCBI genebank的病毒库,发现gene bank refseq里面编号很多,贴在下面,有助记忆。
genebank的病毒参考序列库,最近一次更新去掉了GI号,只保留NC或AC号,可以看出全部是完整基因组序列。
另外, 该序列库是非冗余库(non-redundant),总共只有9556个序列,其中NC 9533个,AC 23个,
可以用grep作简单统计:
grep ">" /path/viral.fa |grep -v ">NC"|wc -l
我关心的HBV只有一个序列,而HCV有7个(各个基因型都有),这一版终于把HEV补上了,小小进步。
看来我要改造一下这个参考库了,至少要加上所有的HBV基因型。
参考库当然是fa格式了,如下图,没有序列长度