oracle数据库闫丽娜下载,高维数据回归分析中基于LASSO的自变量选择.pdf

yummy桑麻

于 2021-04-05 01:27:18 发布

阅读量288

点赞数

文章标签： oracle数据库闫丽娜下载

高维数据回归分析中基于LASSO的自变量选择

· 229 · 中国卫生统计 2013 年 12 月第 30 卷第 6 期

·综述·

高维数据回归分析中基于 LASSO 的自变量选择*

张秀秀1 王慧1 田双双1 乔楠1 闫丽娜2 王彤1△

生物信息学背景下普遍存在着高维数据，所谓的 n

^ OLS { ( ) 2 } ( T ) －1 T

高维即待估计的未知参数的个数是样本量的一个 β = arg min ∑ yi － ∑βj xij = X X X y

“ ” i = 1 j

〔1〕， ( ) 〔2〕但是，不再适用于高维数据分析究其原因，主

或几个数量级例如 Van't Veer 2002 等学者收 OLS 。

，要有两个〔6〕:

集的乳腺癌数据集共包括 259 例乳腺癌患者 25000

，第一预测精度估计虽是无偏的，但在自

个微阵列基因数据研究变量个数 25000 远远大于样、。OLS

，变量间线性相关程度较高时预测精度较差，即估计值

本量 259 存在“高维”现象。传统的方法进行参数估

(

计和统计推断的一个必要前提是待估参数的个数小于的方差通常较大。而预测精度可以压缩甚至设置为

， ) 回归系数加以改进，即通过适度牺牲估计的无偏

样本量这样统计推断的结果才是稳定、可靠的。对于 0

，

高维数据回归分析，经验研究表明自变量进入模型的性以达到改进整体预测精度的目的。

顺序不同所得到的回归系数的估计方差亦不相同，甚第二、模型的稳定性。OLS 估计在自变量个数很

，

至变异很大，提示估计结果不稳定，此时通常需要考虑多时获得的结果不稳定。此时我们往往希望筛选出

( ) 〔3〕一个较小的自变量子集来获得最好的预测效果

其他变量选择策略。Fan 等 2001 年提出变量选。

: ( ) ; ( ) 常用的对进行改进的方法

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。