1. 今天用gb2fas.py对拆分的gb文件进行cds提取,首先对该脚本进行了修改,用来支持以目录作为输入,从而实现批量提取。
2. 修改完成以后,发现有些gb文件总是报错,cds中没有translation的关键字。后来调试发现,这些cds的功能还没弄清楚,标识为假想基因(pseudo gene),也许将这些不清楚的基因标记出来,可以作为以后的工作。
3. 后来发现该脚本的cds location提取有问题,很多基因都是分段的带有内含子,或者是正负链部分片段相加成为的一个基因,这部分要先熟悉genbank格式后进行修改。