前记
候选基因关联分析是GWAS分析流程的重要步骤,同时也是确定候选基因有效变异位置的重要途径,本文主要介绍如何使用TASSEL5进行候选基因关联分析。
简要介绍如下:
TASSEL5是一个用于进行候选基因关联分析的软件工具。候选基因关联分析(Candidate gene association analysis)是一种寻找基因与特定表型关联的方法。该方法通过先验知识或基因功能的研究,选择一组候选基因,并研究这些基因与表型之间的关系。
使用TASSEL5进行候选基因关联分析需要以下步骤:
1. 数据准备:准备基因型数据和表型数据。基因型数据可以是SNP数据或基因型频率数据,表型数据可以是连续性数据或离散型数据。
2. 数据导入:将基因型数据和表型数据导入TASSEL5软件中。
3. 基因型数据过滤:根据需要,对基因型数据进行过滤,例如移除缺失数据、低频数据或不合格的样本。
4. 基因型与表型关联分析:使用TASSEL5提供的关联分析方法,如GLM(广义线性模型)、MLM(混合线性模型)等,进行基因型与表型的关联分析。可以使用单个基因型-表型关联分析,也可以进行多个基因型-表型关联分析。
5. 关联结果分析:根据关联分析的结果,评估候选基因与表型之间的关联程度。可以使用p值、FDR(假阳性发现率)等指标进行结果筛选。
6. 结果验证:根据关联结果,选择一些候选基因进行进一步验证,例如进行功能实验或进行大样本验证。
总之,TASSEL5是一个功能强大的候选基因关联分析工具,可以帮助研究人员发现基因与表型之间的关联。
TASSEL5的下载与安装在此不赘述,详见以下链接:
一、数据准备
具体来说,我们只需要两个文件,基因型文件和表型文件。
1、基因型文件的获取
TASSEL软件一般使用hapmap格式的基因型文件,因此,我们需要通过一些手段进行转化。
这里,我们以基因的vcf文件为例,通过以下代码实现vcf到hapmap文件的转化。
#先将vcf文件转为ped和map文件
vcftools --vcf gene.vcf --plink --out output
#再将ped和map文件转为hammap格式
run_pipeline.pl -fork1 -plink -ped output.ped -map output.map -export gene -exportType Hapmap -runfork1
hapmap文件格式通常如下:
HapMap格式的基因型文件是一种常用的基因型数据存储格式,用于描述基因型在SNP位点上的变异情况。该格式通常包含四列信息:染色体位置、SNP ID、参考等位基因和样本的基因型。
下面是一个HapMap格式的基因型文件的示例:
rsID chromosome position genotype rs1234 1 1000 A/A rs2345 1 2000 A/G rs3456 1 3000 G/G rs4567 2 1000 C/C rs5678 2 2000 C/G rs6789 2 3000 G/G
在这个示例中,每行代表一个SNP位点,列名分别为rsID、chromosome、position和genotype。其中,rsID为SNP的唯一标识符,chromosome表示SNP位点所在的染色体编号,position表示SNP位点在染色体上的位置,genotype表示样本在该SNP位点上的基因型。基因型由两个等位基因组成,以斜杠分隔,例如A/A表示两个等位基因均为A。
HapMap格式的基因型文件可以使用文本编辑器打开和编辑,也可以在基因组数据分析软件中进行导入和分析。
2、表型文件的获取
格式整理如下所示即可:
二、关联分析
有了以上两个文件,就可以进行关联分析了,向TASSEL5中导入以上两个文件。
1、基因型文件
可以进行一个过滤,去除minor SNP。
2、表型文件
图片略。无需进行impute操作,直接用原始数据。
3、关联分析
使用GLM模型即可,同时选择基因型文件和表型文件,选择菜单栏的Union Join选项:
然后,选择合并后的文件,点击GLM analysis。
很快就输出结果,如下所示:
可以看到,基因上物理位置88811695的SNP与表型显著相关。
三、结果可视化
可以直接使用TASSEL内置的可视化功能。
选择结果文件,进行可视化,在Results选项里面。
1、曼哈顿图
2、QQ图
后记
简单记录一下,TASSEL功能还是挺强大的,就是图片很丑,建议使用其它软件进行绘图。
-----2024.4.6
----沉香GG
千里之行,始于足下。