最近第一次建树,发现用全长蛋白序列建树的支持度太差,所以就选择蛋白序列建树,网上搜了一圈发现蛋白序列建树只有预测蛋白序列,诸如网站
pfam,或者SMART网站等。但是就是没有说怎么提取蛋白 domain序列
我首先是看基因家族鉴定的文献,发现很多是用 domain建树。如果此时还是不好,那么树是什么样,就是什么样。
首先要获取对应的转录家族序列,这一步简单,只要去pfamA看一下,但是一定要尽量细化到最下面的亚家族。这可以使用 BLAST看一下,有自己的基因组网站,最方便,直接查,否则就用planttfdb看一下,都行。
之后看文献,这一步不容易。因为我的转录因子很多,所以很多家族,我就要看很多文献。但是转录因子家族就是很乱,所以需要耐心,细心梳理。我耐心有,细心不够。
一般是拟南芥和水稻,以为人家转录因子研究的最全。找到文章的附表的id,去网站直接批量下载蛋白序列。
这里还是有很多细节,我就不表了。
之后去SMART批量鉴定,之后就会生成文本。
重头戏来了,这里需要写脚本,提取start和end位置,使用 seqkit工具盒提取对应的位置。这是核心。
如果你的关键蛋白域只有一个简单,可是要是两个三个,就不是很简单了。
我今天上午就做了一个两个域的提取,提取没问题,但是在把这两个域的序列合并的时候(这也是一个我疑惑的点,但是文章没写那么细,所以我想都是比对,就合并了,比对结果跟我想的差不多),没有及时核查结果,结果运行很慢。下午我看结果不好,我用mega建的,时间很长结果不好,我就很难受。吃完饭,回宿舍想了一会,先检查序列文件对不对,再检查与域合并做法对不对,果然一检查就是序列文件合并错了,中间忘了一个字符串的清空操作。主要就是逻辑,我检查的不仔细。
最大的教训就是生信很重要就是数据控制,组装转录本有质量要求,基因组有LGI指数,反正质检很重要。
加油啊!