声明:本文所介绍的github中的GWAS教程,是在生信技能树公众号的推文看到的。
如果觉得我的文章有用,请给个赞鼓励我一下,谢谢!
推文链接:
全基因组关联分析学习资料(GWAS tutorial)mp.weixin.qq.comgithub项目链接:
https://github.com/MareesAT/GWA_tutorial/#gwa-tutorialgithub.com项目介绍
该项目包含的文件:
- 1_QC_GWAS.zip
- 2_Population_stratification.zip
- 3_Association_GWAS
- 4_ PRS.doc
上述文件的内容说明:
1.GWAS QC的所有基本步骤以及用于数据可视化的脚本。
2.使用1000个基因组作为参考处理人口分层。
3.GWAS数据的关联分析。
4.多基因风险评分(PRS)分析。
如何下载该项目:
git clone https://github.com/MareesAT/GWA_tutorial.git
说明:完成当前教程后,建议您访问https://github.com/AngelaMinaVargas/eMAGMA-tutorial此Github存储库指导使用eMAGMA的步骤。
eMAGMA是GWAS后的一项分析,它通过将SNP分配给组织特异性eGenes来进行基于eQTL的基因测试。
教程分布指南
本教程包括四个独立的部分。前三个相互依赖,只能以连续的顺序执行,从第一个(1_QC_GWAS.zip)开始,然后是第二个(2_Population_stratification.zip),然后是第三个(3_Association_GWAS),第四部分(4_ PRS。 doc)可以独立执行。
假定您已阅读随附的文章“进行基因组-全基因组研究的教程:质量控制和统计分析”(https://www.ncbi.nlm.nih.gov/pubmed/29484742),该文章应提供您对本教程中介绍的分析类型有基本的理论了解。
步骤1) 创建一个计划进行分析的目录
mkdir ~/GWAS
步骤2)从GitHub页面下载文件
cd ~/GWAS
git clone https://github.com/MareesAT/GWA_tutorial.git
- 解压缩第一个教程的文件夹,然后移到新创建的目录中。
执行以下命令
解压缩 1_QC_GWAS.zip CD 1_QC_GWAS步骤3)
步骤3)本教程需要使用开放源代码编程语言R和开放源代码全基因组关联分析工具集PLINK 1.07版(所有命令也可与PLINK2一起使用)。:如果这些程序尚未在您的计算机上安装它们可以分别下载 https://www.r-project.org/ http://zzz.bwh.harvard.edu/plink/ HTTPS://www.cog -genomics.org/plink2
- 我们建议使用最新版本。这些网站将指导您完成安装过程。
- 恭喜,一切已准备就绪,可以开始本教程!
步骤4)一旦创建了一个目录,并在其中下载并解压缩了文件夹1_QC_GWAS.zip,就可以开始实际教程的第一部分了。本教程的所有步骤将使用主脚本中的命令执行:1_Main_script_QC_GWAS.txt,完成本教程的唯一必要操作是在Unix设备的提示下从主脚本中复制并粘贴命令。注意,请确保您位于包含所有文件的目录中,该目录是第2步的最后一个命令之后的目录。无需手动打开其他文件。
使用主脚本有两种方法:
选项1
- 如果您是新手,建议您在Windows计算机上的写字板或记事本中打开1_Main_script_QC_GWAS.txt。
选项2
- 或者,可以使用Unix文本编辑器(例如vi)打开1_Main_script_QC_GWAS.txt。
用vi打开主脚本:
vi 1_Main_script_QC_GWAS.txt
- 这使您能够在Unix环境中读取脚本并从中复制命令行。
要退出vi并返回目录,请使用:
:q
- 从那里,使用选项1或2,您可以读取脚本“ 1_Main_script_QC_GWAS.txt”的每个步骤给出的信息,并在Unix计算机上的提示符后复制并粘贴命令。
注意,如果R或PLINK安装在工作目录以外的目录中,请在给定脚本中指定可执行文件的路径。或者,您可以将程序的可执行文件复制到您的工作目录中。例如,使用以下命令:cp {路径/程序名称} {路径/目录}。但是,在使用群集计算机时,无论目录如何,都可以使用“ module load plink”和“ module load R”之类的命令。
有关在Unix / Linux环境中使用R和PLINK的更多信息,请参考:http://zzz.bwh.harvard.edu/plink/download.shtml#nixs
教程2和3的执行
- 按照步骤2中所述解压缩所选的教程文件夹。
- 使用上一个教程的输出文件作为您要开始的教程的输入。
以下命令可用于将文件复制到另一个目录
cp {路径/目录/文件} {路径/目录}
- 第二教程使用2_Main_script_MDS.txt,第三教程使用3_Main_script_association_GWAS.txt。
教程4的执行
4_ PRS.doc与其他教程无关。下载4_ PRS.doc之后,您可以在所选目录中运行脚本,而无需解压缩。
更新:PLINK的用法
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6001694/www.ncbi.nlm.nih.gov1 介绍
PLINK是用于分析SNP数据的,尽管有Windows的PLINK版本,但建议使用基于GNU / Linux的计算机资源。
PLINK可以读取文本格式的文件或二进制文件。由于读取大型文本文件可能很耗时,因此建议使用二进制文件。
二进制PLINK数据由三个文件组成,一个包含单个标识符(ID)和基因型(* .bed)的二进制文件,以及两个包含有关个体(* .fam)和遗传标记( * .bim)。
例如,在一项躁郁症研究中,*bed文件将包含所有患者和健康对照的基因分型结果;* .fam文件将包含与受试者相关的数据(与研究中其他参与者的家庭关系,性别和临床诊断);* .bim文件将包含有关SNP物理位置的信息。使用协变量进行分析通常需要第四个文件,其中包含每个个体的这些协变量的值。
2 基本的PLINK命令
PLINK的选项将以空格分隔。这些选项均以两个破折号(-)开头。
第一个选项是数据文件的格式和名称:--file {your_file}对文本文件使用,--bfile {your_file}对二进制文件使用。
之后,可以添加所有其他必需的选项,例如,--assoc执行关联分析的选项,此特定选项将告诉PLINK对感兴趣表型的每个SNP执行X2测试。可以在一个命令行中组合多个选项。在PLINK中,实现了默认顺序,该顺序与命令行中命令的顺序无关。
第三个选项是-out {outfile},它为输出文件提供名称(后缀将根据需要由PLINK添加)。
Whole genome data analysis toolsetzzz.bwh.harvard.edu暂时就更新到这了。觉得有用的话可以点个赞告诉我哦。