1. 基因家族聚类
基因家族是来源于同一个祖先,由一个基因通过基因重复和物种分歧而产生两个或更多的拷贝而构成的一组基因,它们在结构和功能上具有明显的相似性,编码相似的蛋白质产物,同一家族基因可以紧密排列在一起,形成一个基因簇,但多数时候,它们是分散在同一染色体的不同位置,或者存在于不同的染色体上的,各自具有不同的表达调控模式。基因家族的鉴定,是进化分析很重要的一个方面; OrthoMCL(http://orthomcl.org/orthomcl/)流程是较常用的基因家族鉴定流程。
Step1:对各个物种的基因集进行过滤。首先,一个基因存在多个可变剪接转录本时,仅留取编码区最长的转录本用于进一步分析;其次,将编码蛋白质小于50个氨基酸的基因排除。
Step2:通过blastp比对获得所有物种蛋白序列之间的相似性关系;e值为1e-5;再用solar连接断开片段;
Step3:使用OrthoMCL软件对比对结果进行聚类,膨胀系数使用1.5;通过这个分析,可以得到单拷贝基因家族和多拷贝基因家族,它们在物种之间都是比较保守的;还可以得到物种特有的基因家族,它们可能与物种的特异性有关;
Step4: 用muscle进行多序列比对,并对结果进行处理(一个位点上若只有一个物种含有碱基,这种情况删除这个位点),同时并进行格式转化(每个物种为一行,物种名称在前,序列在后的格式,每个物种碱基位点一一对其)