[GWAS]基于plink的亲缘关系质控

文章介绍了如何通过计算IdentityByState(IBS)和IdentityByDescent(IBD)来研究亲子关系和基因共享。通过使用plink工具进行过滤和分析,以及R语言进行可视化,识别并排除具有亲子关系的个体,以便于后续的基因组研究。最后,文章提到了将bed文件转换为ped和map文件的过程。
摘要由CSDN通过智能技术生成

本篇我们要对一下具有亲子关系的个体进行过滤,然后计算类似于IBS的结果
血缘同源(Identity By Descent,IBD),子代中共有的等位基因来源于同一祖先。
状态同源(identical by state ,IBS),两个个体拥有相同的等位基因(不一定来源以同一祖先)。
不太了解的同学👉IBD/IBS

这里讲亲子关系的移除其实不是必须要的,比如我们分析的群体里面有亲子关系的个体,想要进行分析,不需要做这一步的筛选

首先我们计算pihat>0.2的组合
image.png
说明文档:

–genome invokes an IBS/IBD computation, and then writes a report with the following fields to plink.genome:
FID1 👉 Family ID for first sample
IID1 👉 Individual ID for first sample
FID2 👉 Family ID for second sample
IID2 👉 Individual ID for second sample
RT 👉 Relationship type inferred from .fam/.ped file
EZ 👉 IBD sharing expected value, based on just .fam/.ped relationship
Z0 👉 P(IBD=0)
Z1 👉 P(IBD=1)
Z2 👉 P(IBD=2)

image.png
接着我们提取Z1大于0.9的个体

awk '{if($8>0.9) print $0}' pihat_min0.2.genome > zoom_pihat.genome
wc -l zoom_pihat.genome

image.png
我们用R语言可视化这些个体

# 先要设置工作路径

relatedness = read.table("pihat_min0.2.genome", header=T)
with(relatedness,plot(Z0,Z1, xlim=c(0,1), ylim=c(0,1), type="n"))
with(subset(relatedness,RT=="PO") , points(Z0,Z1,col=4))
with(subset(relatedness,RT=="UN") , points(Z0,Z1,col=3))
# legend(1,1, xjust=1, yjust=1, legend=levels(relatedness$RT), pch=16, col=c(4,3))

relatedness_zoom = read.table("zoom_pihat.genome", header=T)
with(relatedness_zoom,plot(Z0,Z1, xlim=c(0,0.02), ylim=c(0.98,1), type="n"))
with(subset(relatedness_zoom,RT=="PO") , points(Z0,Z1,col=4))
with(subset(relatedness_zoom,RT=="UN") , points(Z0,Z1,col=3))
# legend(0.02,1, xjust=1, yjust=1, legend=levels(relatedness$RT), pch=16, col=c(4,3))

pdf("hist_relatedness.pdf")
relatedness = read.table("pihat_min0.2.genome", header=T)
hist(relatedness[,10],main="Histogram relatedness", xlab= "Pihat")
dev.off()

image.png
image.png
PO是指:亲子关系
UN是指:非亲缘关系
然后我们删除亲子关系的个体:

plink --bfile HapMap_3_r3_10 --filter-founders --make-bed --out HapMap_3_r3_11

image.png
我们可以看到其中52个个体被移除了
image.png

然后我们来查看数据
这里的文件是bed二进制文件,不方便查看,我们将其转化为ped文件和map文件
注意:这里我们使用的是ped和map格式,如果ped文件中有表型数据(第六列),如果想指定表型数据,就使用–pheno参数,包括三列:家系,个体,表型值

plink --bfile HapMap_3_r3_11 --recode --out test

image.png
image.png
从统计数据中得出:

  • 基因型个体:110个(ped文件中)
  • SNP个数:1073181(map文件中)

希望能帮到你~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Gremmie2003

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值