![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
统计学基础
文章平均质量分 92
超级可爱的小航子咩
保持热爱
展开
-
6-变量选择之二
6、变量选择方法之二 6.1岭回归 对于Hitters数据集,先去掉缺失值 注:本文中的predict是自己之前定义的函数,参见变量选择方法之二 #去掉缺失值后,Salary作为因变量,其它19列作为自变量 Hitters =na.omit(Hitters) x <- model.matrix(Salary~.,Hitters)[,-1] y <- Hitters$Salary library(glmnet) #定义lambda值 grid <- 10^seq(10,-2,length =原创 2020-11-04 21:43:12 · 1391 阅读 · 0 评论 -
6-变量选择之一
6、变量选择方法之一 注:本文只提供书中R代码实例,更详细的内容参见教材 6.1最优子集选择 使用R中的Hitters数据,根据运动员过去的表现,预测它的薪水 首先查看数据是否存在缺失值,剔除缺失值(剔除缺失值后数据大小变为263*20) > library(ISLR) > fix(Hitters) > names(Hitters) [1] "AtBat" "Hits" "HmRun" "Runs" "RBI" [6] "Walks"原创 2020-11-04 11:27:21 · 3008 阅读 · 0 评论 -
5-再采样方法
5再采样方法 看了中大一位博主的文章,其中提到《an introduction to statistical learning with R》这本书,粗略看了下很受启发,本书可以作为统计学专业硕士自学教材。由于本人最近在做变量选择相关研究,于是从第五章开始学习。 最常用的两种再采样方法:交叉验证和自助法。交叉验证主要用于模型评估和模型选择。自助法用于评估参数估计或同级学习方法的精度。 5.1交叉验证 模型评估通常有训练集误差和测试集误差。当缺乏测试集时,需要从训练集产生测试集。 一个含有n个样本的数据集,随原创 2020-11-03 20:48:42 · 593 阅读 · 0 评论