先看看他们的作业,这应该是最基本的生信查找内容,估计老师们之间用的都是一个内容
顺着做吧
-
找个蛋白
该同学选择TFRC蛋白,直接在NCBI的Gene搜索,进去下拉,就能看到基因组和相应基因位置
找一个这个基因的Genbank
出现这个页面
直接在Send to下载Coding Sequences,核酸和氨基酸的都下载以免后面要用,格式直接改后缀名就行
往下拉,本作业要的mRNA位置出现了,因为后面要500aa以上,选一个
-
蛋白分析
简化一下蛋白名称方便后面操作
分析过程参考https://zhuanlan.zhihu.com/p/325789632,我用的Expasy做的组成和疏水性,TMHMM跨膜区分析,结构域用NCBI的CD-Searchhttps://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi,二级结构用PSIPRED,三级结构用SWISS-MODEL(三级结构分析教程https://zhuanlan.zhihu.com/p/148266792),这是比较好用的几个
文章直接在Pubmed或者百度学术查
-
序列比对和进化树
blast后选择需要的序列下载(可以直接把序列号放进去blast,这样能快速得到其他同基因序列)
下载建树需要的得分最高的10种不同物种的序列,将序列文件拖进JalView,使用Mafft进行序列比对(进准度个人认为Mafft>Tcoffee>Clustal>Muscle)
保存比对后的序列(任意可以被建树软件识别的格式)
调整颜色后输出图片
由于序列较少,进化树直接使用网页版的IQ-TREE(http://iqtree.cibiv.univie.ac.at/,网站加载有点慢,耐心等一下),下图步骤设置好之后下拉填写邮箱然后submit job
完成后选中项目,点击下载
后缀.treefile是进化树文件
进化树可视化可以选择ChiPlot或者iTOL: Interactive Tree Of Life (embl.de)
这里我用ChiPlot做一个,这个网站内置教程,可自行学习使用
这个网站可以在右边侧边栏美化进化树,也可以导入文件修改进化树
新建一个excel,使用重命名功能
在右边栏打开自展值
这样一个基本的进化树就做好了
这个作业上的内容就是这样了