关于蛋白 domain建树的总结

最近第一次建树,发现用全长蛋白序列建树的支持度太差,所以就选择蛋白序列建树,网上搜了一圈发现蛋白序列建树只有预测蛋白序列,诸如网站
pfam,或者SMART网站等。但是就是没有说怎么提取蛋白 domain序列

我首先是看基因家族鉴定的文献,发现很多是用 domain建树。如果此时还是不好,那么树是什么样,就是什么样。

首先要获取对应的转录家族序列,这一步简单,只要去pfamA看一下,但是一定要尽量细化到最下面的亚家族。这可以使用 BLAST看一下,有自己的基因组网站,最方便,直接查,否则就用planttfdb看一下,都行。

之后看文献,这一步不容易。因为我的转录因子很多,所以很多家族,我就要看很多文献。但是转录因子家族就是很乱,所以需要耐心,细心梳理。我耐心有,细心不够。
一般是拟南芥和水稻,以为人家转录因子研究的最全。找到文章的附表的id,去网站直接批量下载蛋白序列。
这里还是有很多细节,我就不表了。
之后去SMART批量鉴定,之后就会生成文本。

重头戏来了,这里需要写脚本,提取start和end位置,使用 seqkit工具盒提取对应的位置。这是核心。

如果你的关键蛋白域只有一个简单,可是要是两个三个,就不是很简单了。

我今天上午就做了一个两个域的提取,提取没问题,但是在把这两个域的序列合并的时候(这也是一个我疑惑的点,但是文章没写那么细,所以我想都是比对,就合并了,比对结果跟我想的差不多),没有及时核查结果,结果运行很慢。下午我看结果不好,我用mega建的,时间很长结果不好,我就很难受。吃完饭,回宿舍想了一会,先检查序列文件对不对,再检查与域合并做法对不对,果然一检查就是序列文件合并错了,中间忘了一个字符串的清空操作。主要就是逻辑,我检查的不仔细。

最大的教训就是生信很重要就是数据控制,组装转录本有质量要求,基因组有LGI指数,反正质检很重要。

加油啊!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值