课题
giggle90
这个作者很懒,什么都没留下…
展开
-
课题第一天
1. 得到了197个cmv的genbank文件,是一个合并的文件,要使用yanbo的gb2fas.py来进行各个cds的提取,首先需要将这些genbank文件进行拆分。2. 自己编写了一个简单的biopython脚本来拆分,用这些genbank的描述来对拆分的文件进行命名,结果发现有多个描述完全一样,所以造成了同名文件覆盖,总是缺少一些文件。3. 同名的文件进行了重新命名,原创 2015-06-10 16:58:38 · 417 阅读 · 0 评论 -
课题第四天-blast结果解析
1. 将16G的xml结果文件下载完成后,发现blastgraph无法解析,不知道是大小超过了限制,还是在blast中出现了错误。2. 和作者讨论之后,修改了blast思路,不是直接整体和整体blast,而是将所有cds拆分成几个文件,各个之间及本身做blast,然后和并结果也可行。BlastGraph可以完成这个工作。原创 2015-06-27 18:03:56 · 848 阅读 · 0 评论 -
课题第三天
1. 第一步准备鉴定hcmv的core genes2. 主要利用yanbo的blastgraph来做,首先安装blastall,按照manual提示的ftp地址,进去后没有找到需要的blastall程序,发现已经更新为blast+。3. 下载最新的blast+套装,是rpm的格式,需要用alien -i filename.rpm来安装。4. 在提取的cds fasta文件中,Human原创 2015-06-23 12:12:31 · 472 阅读 · 0 评论 -
课题第五天-blastgraph载入性能测试
1. 通过不同query数量的xml文件载入测试,发现blastgraph的载入数量在达到12000左右时,已经到达极限。2. 所以将约等于200X200的querys分成4部分,每部分大约包含10000左右,再进行blast解析是可行的。3. 聚类结果的解析还不是十分清楚,需要与作者讨论下。原创 2015-06-30 11:15:58 · 515 阅读 · 0 评论 -
课题第二天
1. 今天用gb2fas.py对拆分的gb文件进行cds提取,首先对该脚本进行了修改,用来支持以目录作为输入,从而实现批量提取。2. 修改完成以后,发现有些gb文件总是报错,cds中没有translation的关键字。后来调试发现,这些cds的功能还没弄清楚,标识为假想基因(pseudo gene),也许将这些不清楚的基因标记出来,可以作为以后的工作。3. 后来发现该脚本的原创 2015-06-10 17:08:25 · 430 阅读 · 0 评论