GWAS基因芯片数据预处理：质量控制（quality control）

最新推荐文章于 2024-07-03 10:15:19 发布

weixin_33853827

最新推荐文章于 2024-07-03 10:15:19 发布

阅读量1.2k

点赞数 1

原文链接：http://www.cnblogs.com/chenwenyan/p/10563835.html

版权

GWAS研究中，尽管基因型相对稳定，但仍需进行质量控制以消除潜在偏差，如群体结构、血缘关系和技术操作影响。通过检查样本和SNP直方图，设定过滤阈值来判断是否需要质量控制。样本控制关注缺失率、杂合性和性别一致性，SNP控制涉及MAF值、call出率和哈温伯格平衡。通过相关命令过滤，得到干净的数据。

摘要由CSDN通过智能技术生成

一、数据为什么要做质量控制

比起表观学研究，GWAS研究很少有引起偏差的来源，一般来说，一个人的基因型终其一生几乎不会改变的，因此很少存在同时影响表型又影响基因型的变异。但即便这样，我们在做GWAS时也要去除一些可能引起偏差的因素。

这种因素主要有：群体结构、个体间存在血缘关系、技术性操作。

二、怎么看数据是否需要进行质量控制

下面分别为样本和SNP位点在数据中的直方图，当数据不在绝大多数的分布当中时，我们会倾向于认为那是测序、人工操作等其他方面造成的误差，而非该个体的真实情况，因此是需要将这些样本和位点过滤掉的。

这个阈值的设定并没有一个金标准，可参考往年发表的文献的常用阈值。

1、样本过滤阈值的设定

2、SNP过滤阈值的设定

三、怎么进行质量控制

质量控制包括两个方向，一个是样本的质量控制，一个是SNP的质量控制

1、样本的质量控制

样本的质量控制包括：缺失率

最低0.47元/天解锁文章

weixin_33853827

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。