gwas snp 和_有关GWAS和PRS的综合教程

本文提供了一个全面的GWAS(全基因组关联研究)和PRS(多基因风险评分)教程,涵盖了从数据质量控制、人口分层处理到GWAS关联分析和PRS分析的全过程。教程分为四个部分,适合对GWAS分析有一定理论基础的读者。教程推荐使用R和PLINK工具,并提供了详细的执行命令和操作指南。
摘要由CSDN通过智能技术生成

声明:本文所介绍的github中的GWAS教程,是在生信技能树公众号的推文看到的。

如果觉得我的文章有用,请给个赞鼓励我一下,谢谢!

推文链接:

全基因组关联分析学习资料(GWAS tutorial)​mp.weixin.qq.com
f1a3da6e2cddde59cc727a9068bdf7ab.png

github项目链接:

https://github.com/MareesAT/GWA_tutorial/#gwa-tutorial​github.com

项目介绍

该项目包含的文件:

  • 1_QC_GWAS.zip
  • 2_Population_stratification.zip
  • 3_Association_GWAS
  • 4_ PRS.doc

上述文件的内容说明:

1.GWAS QC的所有基本步骤以及用于数据可视化的脚本。

2.使用1000个基因组作为参考处理人口分层。

3.GWAS数据的关联分析。

4.多基因风险评分(PRS)分析。

如何下载该项目:

git clone https://github.com/MareesAT/GWA_tutorial.git

说明:完成当前教程后,建议您访问https://github.com/AngelaMinaVargas/eMAGMA-tutorial此Github存储库指导使用eMAGMA的步骤。

eMAGMA是GWAS后的一项分析,它通过将SNP分配给组织特异性eGenes来进行基于eQTL的基因测试。


教程分布指南

本教程包括四个独立的部分。前三个相互依赖,只能以连续的顺序执行,从第一个(1_QC_GWAS.zip)开始,然后是第二个(2_Population_stratification.zip),然后是第三个(3_Association_GWAS),第四部分(4_ PRS。 doc)可以独立执行。

假定您已阅读随附的文章“进行基因组-全基因组研究的教程:质量控制和统计分析”(https://www.ncbi.nlm.nih.gov/pubmed/29484742),该文章应提供您对本教程中介绍的分析类型有基本的理论了解。

步骤1) 创建一个计划进行分析的目录

mkdir ~/GWAS

步骤2)从GitHub页面下载文件

cd ~/GWAS
git clone https://github.com/MareesAT/GWA_tutorial.git
  • 解压缩第一个教程的文件夹,然后移到新创建的目录中。

执行以下命令

解压缩 1_QC_GWAS.zip CD 1_QC_GWAS步骤3)

步骤3)本教程需要使用开放源代码编程语言R和开放源代码全基因组关联分析工具集PLINK 1.07版(所有命令也可与PLINK2一起使用)。:如果这些程序尚未在您的计算机上安装它们可以分别下载 https://www.r-project.org/ http://zzz.bwh.harvard.edu/plink/ HTTPS://www.cog -genomics.org/plink2

  • 我们建议使用最新版本。这些网站将指导您完成安装过程。
  • 恭喜,一切已准备就绪,可以开始本教程!

步骤4)一旦创建了一个目录,并在其中下载并解压缩了文件夹1_QC_GWAS.zip,就可以开始实际教程的第一部分了。本教程的所有步骤将使用主脚本中的命令执行:1_Main_script_QC_GWAS.txt,完成本教程的唯一必要操作是在Unix设备的提示下从主脚本中复制并粘贴命令。注意,请确保您位于包含所有文件的目录中,该目录是第2步的最后一个命令之后的目录。无需手动打开其他文件。

使用主脚本有两种方法:

选项1

  • 如果您是新手,建议您在Windows计算机上的写字板或记事本中打开1_Main_script_QC_GWAS.txt。

选项2

  • 或者,可以使用Unix文本编辑器(例如vi)打开1_Main_script_QC_GWAS.txt。

用vi打开主脚本:

vi 1_Main_script_QC_GWAS.txt
  • 这使您能够在Unix环境中读取脚本并从中复制命令行。

要退出vi并返回目录,请使用:

:q
  • 从那里,使用选项1或2,您可以读取脚本“ 1_Main_script_QC_GWAS.txt”的每个步骤给出的信息,并在Unix计算机上的提示符后复制并粘贴命令。

注意,如果R或PLINK安装在工作目录以外的目录中,请在给定脚本中指定可执行文件的路径。或者,您可以将程序的可执行文件复制到您的工作目录中。例如,使用以下命令:cp {路径/程序名称} {路径/目录}。但是,在使用群集计算机时,无论目录如何,都可以使用“ module load plink”和“ module load R”之类的命令。

有关在Unix / Linux环境中使用R和PLINK的更多信息,请参考:http://zzz.bwh.harvard.edu/plink/download.shtml#nixs

教程2和3的执行

  • 按照步骤2中所述解压缩所选的教程文件夹。
  • 使用上一个教程的输出文件作为您要开始的教程的输入。

以下命令可用于将文件复制到另一个目录

cp {路径/目录/文件} {路径/目录}
  • 第二教程使用2_Main_script_MDS.txt,第三教程使用3_Main_script_association_GWAS.txt。

教程4的执行

4_ PRS.doc与其他教程无关。下载4_ PRS.doc之后,您可以在所选目录中运行脚本,而无需解压缩。


更新:PLINK的用法

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6001694/​www.ncbi.nlm.nih.gov

1 介绍

PLINK是用于分析SNP数据的,尽管有Windows的PLINK版本,但建议使用基于GNU / Linux的计算机资源。

PLINK可以读取文本格式的文件或二进制文件。由于读取大型文本文件可能很耗时,因此建议使用二进制文件

二进制PLINK数据由三个文件组成,一个包含单个标识符(ID)和基因型(* .bed)的二进制文件,以及两个包含有关个体(* .fam)和遗传标记( * .bim)。

b2d17150fa341f37f5a64362922a6a0d.png

例如,在一项躁郁症研究中,*bed文件将包含所有患者和健康对照的基因分型结果* .fam文件将包含与受试者相关的数据(与研究中其他参与者的家庭关系,性别和临床诊断);* .bim文件将包含有关SNP物理位置的信息。使用协变量进行分析通常需要第四个文件,其中包含每个个体的这些协变量的值。

2 基本的PLINK命令

5fc6321a8aef74a69886380884dccc3b.png

PLINK的选项将以空格分隔。这些选项均以两个破折号(-)开头。

第一个选项是数据文件的格式和名称:--file {your_file}对文本文件使用,--bfile {your_file}对二进制文件使用

之后,可以添加所有其他必需的选项,例如,--assoc执行关联分析的选项,此特定选项将告诉PLINK对感兴趣表型的每个SNP执行X2测试。可以在一个命令行中组合多个选项。在PLINK中,实现了默认顺序,该顺序与命令行中命令的顺序无关。

第三个选项是-out {outfile},它为输出文件提供名称(后缀将根据需要由PLINK添加)。

Whole genome data analysis toolset​zzz.bwh.harvard.edu

暂时就更新到这了。觉得有用的话可以点个赞告诉我哦。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值