如何获取一个基因家族的所有小麦基因
昨天有同学问我如何获得谷子中一个基因家族的所有基因。谷子已经测过序,获得起来还是比较简单。想要获得一个基因组家族的所有基因,方法很多。比方说,IWGSCv1.0的基因功能注释文件里就可以直接搜索相关关键词或者蛋白domain的ID等获取。结合基因家族序列特点,合理选择获取方法。有的基因家族成员之间保守性不好,可能官方给的注释里边不是全。
下面说一下如何在线获取基于TGACv1版本的某个基因家族的所有基因。
首先要知道domain id,也是pfam id
打开网站 https://www.ebi.ac.uk/Tools/hmmer/search/hmmscan
输入一个蛋白序列,点击提交,搜索之后会出现一个表格,选择 Accession下的号码,如:“PF00067”
网站:(http://plants.ensembl.org/index.html)
1.打开之后,点击顶部”BioMart”
2.在”BioMart”页面上有个“-CHOOSE DATASET-”的提示,点击下,下拉选择”Plant Genes 36”。然后再次下拉选择小麦即可。即选择“Triticum aestivum genes (TGACv1)”。
3.点击页面左侧的Filters,然后可以看到加载的页面上有这样一行“PROTEIN DOMAINS AND FAMILIES:”,点击左边的加号展开。
4.点开之后,下拉选择,Pfam ID(s)下方输入框输入上述pfam id “PF00067”。
5.点击页面左边的“Attributes”,选择需要返回的内容,比如蛋白序列,CDS,基因组序列,转录本ID等。这一步里边选项很多,可以获取很多信息,多摸索下。
6.点击此时页面左上方的“Results”,获取结果。可以选择导出结果.