Q-Q plot 在GWAS中的意思

Q-Qplot是一种常用的统计图表,用于直观展示观测值与预测值之间的差异。本文详细介绍了如何使用SPSS绘制Q-Qplot,解释了Q-Qplot背后的数学原理,并讨论了其在遗传学研究中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Q-Q plot 即Quantile-Quantile Plot。它在各类研究中经常用到,主要是直观的表示观测值与预测值之间的差异。

在SPSS中很容做,Analysis - Descriptive statistics - Q-Qplot。

Q-Q plot主要是用来估计数量性状观测值与预测值之间的差异。一般我们所取得的数量性状数据都为正态分布数据。在GWAS研究中Q-Q plot的X和Y轴主要是代表各个SNP的-lg P values。预测的线是一条从原点发出的45°角的虚线。实际观测值则是标的实心点。

Q-Q plot主要要点:

预测的虚线为什么是45°出来的呢?因为预测的线实际是通过在QQ图中第一象限作图得出。理论上一个点A在该图上的位置应该是A预测值=A实际值,转化为坐标就是A(x,y)x=y。所以预测的线是一条从原点发出的45°线。

观测值的点的坐标是怎么得出来的。同样设点A的坐标是(x,y)x为预测值,y为实际观测值。查了一下R 中qq plot的算法是这样的

pvals <- read.table("DGI_chr3_pvals.txt", header=T)

observed <- sort(pvals$PVAL)
lobs <- -(log10(observed))

expected <- c(1:length(observed))
lexp <- -(log10(expected / (length(expected)+1)))


具体解释是这样的,先把P值从小到大排序。lobs代表纵坐标,lexp代表横坐标,纵坐标就是观测P值的-log10,而横坐标则根据P值数目而定。比如,当只有3个P值 P1=0.0001 P2=0.001 P3=0.01,那么在这个P值组中,length(observed)=3,对于P1=0.0001 expected=1 lexp=-log10(1/3+1),对于P2=0.001 expected=2 lexp=-log10(2/3+1), P3=0.01 expected=3 lexp=-log10(3/3+1)。。。。。依此类推。

如果出现了偏离的情况说明实际值跟预测值有偏差,在GWAS研究中,那个SNP点出现了较大的偏离,则认为这个SNP位点的观测值的偏离是由这个SNP突变所产生的遗传作用造成的
### GWAS 分析质量性状的方法和流程 #### 数据准备 为了执行针对质量性状的GWAS分析,需准备好高质量的基因型数据集和对应的表型数据。基因型数据通常来源于高通量测序技术获得的单核苷酸多态性(SNPs),而表型数据则记录个体对于特定分类性状的表现形式,如抗病与否、毛发颜色等特性[^1]。 #### 质量控制 在正式开展分析前,应对原始数据实施严格的质量控制措施。这包括去除低频突变位点、过滤掉缺失率过高的样本或标记、排除违背哈代-温伯格平衡原则(Hardy-Weinberg equilibrium)显著性的SNP位点等操作,从而提高后续统计检验的有效性和可靠性[^3]。 #### 关联检测 采用合适的统计模型评估各个SNP与目标性状间的潜在联系。对于二元变量表示的质量性状(例如存在/不存在某种特征),可以选用逻辑回归(Logistic Regression)作为主要工具;而对于多元离散类别,则可能更适合应用多项式分布或多因素方差分析(MANOVA)。 ```r library(data.table) library(glmnet) # 假设df为含有基因型及表型信息的数据框 setDT(df) # 对于二元响应变量使用logistic regression model fit <- glm(Phenotype ~ ., data=df[, !'ID'], family="binomial") summary(fit)$coefficients # 查看各预测因子的重要性得分 ``` #### 结果解释与验证 完成初步筛选后得到一系列p值较小(p<0.05或其他预定义阈值)且效应大小合理的候选SNPs。此时应进一步考察这些发现是否具有生物学意义,并通过独立队列重复实验加以确认。此外,还可以借助功能注释数据库查询所选区域附近已知基因的功能描述,辅助解读遗传变异背后的作用机制[^2]。 #### 可视化展示 最后一步是将所得结论以直观易懂的形式呈现出来。常用图表有曼哈顿图(Manhattan Plot)用于概览整个染色体上信号强度变化趋势;QQ图(Q-Q plot)比较实际观测到的概率分布同理论预期之间的差异程度;森林图(Forest Plot)汇总多个研究间异质性情况等[^4]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值