gwas简介

最新推荐文章于 2024-11-29 08:00:00 发布

生信学习小达人

最新推荐文章于 2024-11-29 08:00:00 发布

阅读量5.5k

点赞数 3

分类专栏： gwas 文章标签： r语言开发语言学习方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hgz2020/article/details/129384617

版权

gwas 专栏收录该内容

9 篇文章

订阅专栏

文章介绍了在硕士阶段进行GWAS分析的学习历程，包括如何随着高通量测序成本降低而接触Linux和编程语言。全基因组关联分析用于寻找基因与表型间的关联，涉及连锁不平衡（LD）概念、单倍型块分析以及常用软件如R和plink。文章还强调了样本量、表型数据的质量以及标记开发的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在硕士就读期间，开始学习 GWAS 相关的分析。随着高通量测序成本的降低，标记数量越来越多，不得不进入 linux 和脚本操作的时代，因此我也陆陆续续的学习了 R 和 Python等编程语言，但是在编程的世界里，只是一个小菜鸟，大部分的脚本都是“借来的”。

全基因组关联分析（Genome wide association study，GWAS）是对多个个体在全基因组范围的遗传变异（标记）多态性进行检测，获得基因型（calling-snp），进而将基因型与可观测的性状，即表型，进行群体水平的统计学分析，根据统计量或显著性 p 值筛选出最有可能影响该性状的遗传变异（标记），挖掘与性状变异相关的基因。

关联分析的基础-连锁不平衡（LD）

当位于某一座位的特定等位基因与另一座位的某一等位基因同时出现的概率大于群体中因随机分布的两个等位基因同时出现的概率时，就称这两个座位处于连锁不平衡状态（Linkage Disequilibrium,LD）。

r2 和 D'

• r2和D’反映了LD的不同方面。r2包括了重组和突变，而D’只包括重组史。

D’能更准确地估测重组差异，但样本较小时，低频率等位基因组合可能无法

观测到，导致LD强度被高估，所以D’不适合小样本群体研究；

• LD衰减作图中通常采用r2来表示群体的LD水平；

• Haplotype Block中通常采用D’来定义Block；

• 迁移、突变、选择、有限的群体大小以及其他引起等位基因频率改变的因素都会引起LD的改变。

LD的衰减

LD的衰减指位点间由连锁不平衡到连锁平衡的演变过程；

• LD的衰减距离决定关联分析时所需标记密度，也在一定程度上决定关联分析的精度。

单倍型块分析（haplotype block）:

指位于同一条染色体处于连锁不平衡状态的一段连续区域，可用于筛选显著的SNP tag和确定候选基因的范围

常用的gwas软件：

R语言、plink、gemma、GAPIT、gcta等

gwas分析的2类性状：

质量性状（非连续性状，分类性状，主效基因，不易受环境的影响）：颜色、抗性等---logistic模型

数量性状（连续性状，微效基因控制，易受环境的影响）：剑叶长、株高、叶舌长度等---GLM、MLM模型

模型Y=SNP(固定因子)+协变量（PCA-Kinship-admiture）+e

3.材料选择与群体设计：

基本原则：1.变异丰富（包括遗传和表型变异），2.群体结构分化不能过于明显

样本量：位点的检测效应值越低，需要的样本量越大

Y=基因组大小/LD衰减距离

表型调查：相对准确的表型（非常关键）

数量性状：需经过正态分布检验，材料种植于同一环境，对于多年多点的数据分开分析后综合结果或者取BLUP值作为性状值进行关联分析

质量性状：可转换为0,1等

分级性状：类似质量性状，比如抗病性

标记的开发：利用软件gatk对重测序的数据进行calling-snp（或者Indel,CNV,SV等）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。