使用LASSO进行全基因组关联分析

最新推荐文章于 2024-07-29 20:45:31 发布

godliketerry

最新推荐文章于 2024-07-29 20:45:31 发布

阅读量1.8k

点赞数

分类专栏：变量选择文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/godliketerry/article/details/107371288

版权

本文详细介绍了如何使用LASSO进行全基因组关联分析，包括变量预筛选、正则化参数选择、p值估计和错误发现率的控制。通过模拟和实际数据，展示了LASSO在遗传学研究中的优势和局限性。

摘要由CSDN通过智能技术生成

目录

介绍
解决的核心问题
方法流程
方法效果
- 模拟数据
- 实际数据
总结

介绍

本文介绍一种利用LASSO来做响应变量是01变量时进行全基因组关联分析的方法，该方法发表在2009年的《Bioinformatics》杂志上，文章题目为Genome-wide association analysis by lasso penalized logistic
regression。这篇文章提出了一套完整的计算流程，包括变量预筛选、正则化参数的估计、p值的估计以及错误发现率的控制。

解决的核心问题

全基因组数据包含数十万乃至数百万的变量，为了从中挑选出和表型相关的遗传位点，遗传学家通常是对每一个SNP进行假设检验，这种一元的方法精确性不高，所以这篇文章利用LASSO来提升精确度。

方法流程

变量预筛选

出于加快计算速度的需要，在使用LASSO之前需要进行变量的预筛选。这篇文章筛选变量的方法本质上和Sure Independence Screening一样，不同的是作者想让所有变量都满足KKT条件，具体做法如下：

作者认为遗传学家对期望的影响变量数量有一个估计，比如s个（不懂），那么在预筛选的时候只保留k=10s个变量，选择的标准是根据定义的一个指标从高到低进行筛选：
$a_{j}=\left|\sum_{i=1}^{n}\left(y_{i}-p_{0}\right) x_{i j}\right|$
其中 $p_0$ 就是数据中 $y_i=1$ 的比例，这在本质上就等价于使用皮尔森相关系数进行变量筛选（ $x_{ij}$ 变成 $x_{ij}-\mu_j$

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。