使用LASSO进行全基因组关联分析

本文详细介绍了如何使用LASSO进行全基因组关联分析,包括变量预筛选、正则化参数选择、p值估计和错误发现率的控制。通过模拟和实际数据,展示了LASSO在遗传学研究中的优势和局限性。
摘要由CSDN通过智能技术生成

介绍

本文介绍一种利用LASSO来做响应变量是01变量时进行全基因组关联分析的方法,该方法发表在2009年的《Bioinformatics》杂志上,文章题目为Genome-wide association analysis by lasso penalized logistic
regression。这篇文章提出了一套完整的计算流程,包括变量预筛选、正则化参数的估计、p值的估计以及错误发现率的控制。

解决的核心问题

全基因组数据包含数十万乃至数百万的变量,为了从中挑选出和表型相关的遗传位点,遗传学家通常是对每一个SNP进行假设检验,这种一元的方法精确性不高,所以这篇文章利用LASSO来提升精确度。

方法流程

变量预筛选

出于加快计算速度的需要,在使用LASSO之前需要进行变量的预筛选。这篇文章筛选变量的方法本质上和Sure Independence Screening一样,不同的是作者想让所有变量都满足KKT条件,具体做法如下:

作者认为遗传学家对期望的影响变量数量有一个估计,比如s个(不懂),那么在预筛选的时候只保留k=10s个变量,选择的标准是根据定义的一个指标从高到低进行筛选:
a j = ∣ ∑ i = 1 n ( y i − p 0 ) x i j ∣ a_{j}=\left|\sum_{i=1}^{n}\left(y_{i}-p_{0}\right) x_{i j}\right| aj=i=1n(yip0)xij
其中 p 0 p_0 p0就是数据中 y i = 1 y_i=1 yi=1的比例,这在本质上就等价于使用皮尔森相关系数进行变量筛选( x i j x_{ij} xij变成 x i j − μ j x_{ij}-\mu_j xijμ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值