介绍
本文介绍一种利用LASSO来做响应变量是01变量时进行全基因组关联分析的方法,该方法发表在2009年的《Bioinformatics》杂志上,文章题目为Genome-wide association analysis by lasso penalized logistic
regression。这篇文章提出了一套完整的计算流程,包括变量预筛选、正则化参数的估计、p值的估计以及错误发现率的控制。
解决的核心问题
全基因组数据包含数十万乃至数百万的变量,为了从中挑选出和表型相关的遗传位点,遗传学家通常是对每一个SNP进行假设检验,这种一元的方法精确性不高,所以这篇文章利用LASSO来提升精确度。
方法流程
变量预筛选
出于加快计算速度的需要,在使用LASSO之前需要进行变量的预筛选。这篇文章筛选变量的方法本质上和Sure Independence Screening一样,不同的是作者想让所有变量都满足KKT条件,具体做法如下:
作者认为遗传学家对期望的影响变量数量有一个估计,比如s个(不懂),那么在预筛选的时候只保留k=10s个变量,选择的标准是根据定义的一个指标从高到低进行筛选:
a j = ∣ ∑ i = 1 n ( y i − p 0 ) x i j ∣ a_{j}=\left|\sum_{i=1}^{n}\left(y_{i}-p_{0}\right) x_{i j}\right| aj=∣∣∣∣∣i=1∑n(yi−p0)xij∣∣∣∣∣
其中 p 0 p_0 p0就是数据中 y i = 1 y_i=1 yi=1的比例,这在本质上就等价于使用皮尔森相关系数进行变量筛选( x i j x_{ij} xij变成 x i j − μ j x_{ij}-\mu_j xij−μ