交叉验证法(CV)和自助法(bootstrap)
验证集方法:为了估计在Auto数据集上拟合多个线性模型所产生的测试错误率
下面通过一个示例来学习其原理:
set.seed(12)
#划分观测集
library(ISLR)
#从1:392中随机抽取196个数,代表得到196个训练观测
train <- sample(392,size=196)
#然后用lm()函数中的subset选项,用训练数据集拟合一个线性回归模型
lm.fit <- lm(mpg~horsepower,data=Auto,subset=train)
#用验证数据集来计算均方误差
lm.pred <- predict(lm.fit,Auto)
mean((Auto$mpg-lm.pred)[-train]^2)#删去训练数据集中的观测值
20.86694
#用poly()函数来估计用二次,三次多项式回归所产生的测试误差
lm.fit2 <- lm(mpg~poly(horsepower,2),data=Auto,subset=train)#随机抽取数据集中的192个数来做拟合
#验证均方误差
mean((Auto$mpg-predict(lm.fit2,Auto))[-train]^2)
[1] 15.64132
lm.fit3 <- lm(mpg~poly(horsepower,3),data=Auto,subset=train)
mean((Auto$mpg-predict(lm.fit3,Auto))[-train]^2)
[1] 15.76978
#如果选择了不同的训练集,那在验证集上就会有不同的测试误差
set.seed(123)
train <- sample(392,196)
lm.fit <- lm(mpg~horsepower,data=Auto,subset=train)
mean((Auto$mpg-predict(lm.fit))[-train]^2)
[1] 93.00332
lm.fit2 <- lm(mpg~poly(horsepower,2),data=Auto,subset=train)
mean((Auto$mpg-predict(lm.fit2))[-train]^2)
[1] 101.0372
lm.fit3 <- lm(mpg~poly(horsepower,3),data=Auto,subset&#