gwas snp 和_有关GWAS和PRS的综合教程

最新推荐文章于 2023-09-13 18:18:19 发布

蒙眼说

最新推荐文章于 2023-09-13 18:18:19 发布

阅读量514

点赞数

文章标签： gwas snp 和

本文链接：https://blog.csdn.net/weixin_29183637/article/details/112482166

版权

本文提供了一个全面的GWAS（全基因组关联研究）和PRS（多基因风险评分）教程，涵盖了从数据质量控制、人口分层处理到GWAS关联分析和PRS分析的全过程。教程分为四个部分，适合对GWAS分析有一定理论基础的读者。教程推荐使用R和PLINK工具，并提供了详细的执行命令和操作指南。

摘要由CSDN通过智能技术生成

声明：本文所介绍的github中的GWAS教程，是在生信技能树公众号的推文看到的。

如果觉得我的文章有用，请给个赞鼓励我一下，谢谢！

推文链接：

全基因组关联分析学习资料（GWAS tutorial）mp.weixin.qq.com

github项目链接：

https://github.com/MareesAT/GWA_tutorial/#gwa-tutorialgithub.com

项目介绍

该项目包含的文件：

1_QC_GWAS.zip
2_Population_stratification.zip
3_Association_GWAS
4_ PRS.doc

上述文件的内容说明:

1.GWAS QC的所有基本步骤以及用于数据可视化的脚本。

2.使用1000个基因组作为参考处理人口分层。

3.GWAS数据的关联分析。

4.多基因风险评分（PRS）分析。

如何下载该项目：

git clone https://github.com/MareesAT/GWA_tutorial.git

说明：完成当前教程后，建议您访问https://github.com/AngelaMinaVargas/eMAGMA-tutorial此Github存储库指导使用eMAGMA的步骤。

eMAGMA是GWAS后的一项分析，它通过将SNP分配给组织特异性eGenes来进行基于eQTL的基因测试。

教程分布指南

本教程包括四个独立的部分。前三个相互依赖，只能以连续的顺序执行，从第一个（1_QC_GWAS.zip）开始，然后是第二个（2_Population_stratification.zip），然后是第三个（3_Association_GWAS），第四部分（4_ PRS。 doc）可以独立执行。

假定您已阅读随附的文章“进行基因组-全基因组研究的教程：质量控制和统计分析”（https://www.ncbi.nlm.nih.gov/pubmed/29484742），该文章应提供您对本教程中介绍的分析类型有基本的理论了解。

步骤1) 创建一个计划进行分析的目录

mkdir ~/GWAS

步骤2）从GitHub页面下载文件

cd ~/GWAS
git clone https://github.com/MareesAT/GWA_tutorial.git

解压缩第一个教程的文件夹，然后移到新创建的目录中。

执行以下命令

解压缩 1_QC_GWAS.zip CD 1_QC_GWAS步骤3）

步骤3）本教程需要使用开放源代码编程语言R和开放源代码全基因组关联分析工具集PLINK 1.07版（所有命令也可与PLINK2一起使用）。：如果这些程序尚未在您的计算机上安装它们可以分别下载 https://www.r-project.org/ http://zzz.bwh.harvard.edu/plink/ HTTPS：//www.cog -genomics.org/plink2

我们建议使用最新版本。这些网站将指导您完成安装过程。
恭喜，一切已准备就绪，可以开始本教程！

步骤4）一旦创建了一个目录，并在其中下载并解压缩了文件夹1_QC_GWAS.zip，就可以开始实际教程的第一部分了。本教程的所有步骤将使用主脚本中的命令执行：1_Main_script_QC_GWAS.txt，完成本教程的唯一必要操作是在Unix设备的提示下从主脚本中复制并粘贴命令。注意，请确保您位于包含所有文件的目录中，该目录是第2步的最后一个命令之后的目录。无需手动打开其他文件。

使用主脚本有两种方法：

选项1

如果您是新手，建议您在Windows计算机上的写字板或记事本中打开1_Main_script_QC_GWAS.txt。

选项2

或者，可以使用Unix文本编辑器（例如vi）打开1_Main_script_QC_GWAS.txt。

用vi打开主脚本：

vi 1_Main_script_QC_GWAS.txt

这使您能够在Unix环境中读取脚本并从中复制命令行。

要退出vi并返回目录，请使用：

：q

从那里，使用选项1或2，您可以读取脚本“ 1_Main_script_QC_GWAS.txt”的每个步骤给出的信息，并在Unix计算机上的提示符后复制并粘贴命令。

注意，如果R或PLINK安装在工作目录以外的目录中，请在给定脚本中指定可执行文件的路径。或者，您可以将程序的可执行文件复制到您的工作目录中。例如，使用以下命令：cp {路径/程序名称} {路径/目录}。但是，在使用群集计算机时，无论目录如何，都可以使用“ module load plink”和“ module load R”之类的命令。

有关在Unix / Linux环境中使用R和PLINK的更多信息，请参考：http://zzz.bwh.harvard.edu/plink/download.shtml#nixs

教程2和3的执行

按照步骤2中所述解压缩所选的教程文件夹。
使用上一个教程的输出文件作为您要开始的教程的输入。

以下命令可用于将文件复制到另一个目录

cp {路径/目录/文件} {路径/目录}

第二教程使用2_Main_script_MDS.txt，第三教程使用3_Main_script_association_GWAS.txt。

教程4的执行

4_ PRS.doc与其他教程无关。下载4_ PRS.doc之后，您可以在所选目录中运行脚本，而无需解压缩。

更新：PLINK的用法

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6001694/www.ncbi.nlm.nih.gov

1 介绍

PLINK是用于分析SNP数据的，尽管有Windows的PLINK版本，但建议使用基于GNU / Linux的计算机资源。

PLINK可以读取文本格式的文件或二进制文件。由于读取大型文本文件可能很耗时，因此建议使用二进制文件。

二进制PLINK数据由三个文件组成，一个包含单个标识符（ID）和基因型（* .bed）的二进制文件，以及两个包含有关个体（* .fam）和遗传标记（ * .bim）。

例如，在一项躁郁症研究中，*bed文件将包含所有患者和健康对照的基因分型结果；* .fam文件将包含与受试者相关的数据（与研究中其他参与者的家庭关系，性别和临床诊断）；* .bim文件将包含有关SNP物理位置的信息。使用协变量进行分析通常需要第四个文件，其中包含每个个体的这些协变量的值。

2 基本的PLINK命令

PLINK的选项将以空格分隔。这些选项均以两个破折号（-）开头。

第一个选项是数据文件的格式和名称：--file {your_file}对文本文件使用，--bfile {your_file}对二进制文件使用。

之后，可以添加所有其他必需的选项，例如，--assoc执行关联分析的选项，此特定选项将告诉PLINK对感兴趣表型的每个SNP执行X2测试。可以在一个命令行中组合多个选项。在PLINK中，实现了默认顺序，该顺序与命令行中命令的顺序无关。

第三个选项是-out {outfile}，它为输出文件提供名称（后缀将根据需要由PLINK添加）。

Whole genome data analysis toolsetzzz.bwh.harvard.edu

暂时就更新到这了。觉得有用的话可以点个赞告诉我哦。

蒙眼说

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
gwas snp 和_有关GWAS和PRS的综合教程

声明：本文所介绍的github中的GWAS教程，是在生信技能树公众号的推文看到的。如果觉得我的文章有用，请给个赞鼓励我一下，谢谢！推文链接：全基因组关联分析学习资料（GWAS tutorial）mp.weixin.qq.comgithub项目链接：https://github.com/MareesAT/GWA_tutorial/#gwa-tutorialgithub.com项目介绍该项目包含的...
复制链接

扫一扫