R语言逻辑回归、ROC曲线和十折交叉验证
自己整理编写的逻辑回归模板,作为学习笔记记录分享。数据集用的是14个自变量Xi,一个因变量Y的australian数据集。
1. 测试集和训练集3、7分组
[html] view plain copy
australian
#读取行数
N = length(australian$Y)
#ind=1的是0.7概率出现的行,ind=2是0.3概率出现的行
ind=sample(2,N,replace=TRUE,prob=c(0.7,0.3))
#生成训练集(这里训练集和测试集随机设置为原数据集的70%,30%)
aus_train
#生成测试集
aus_test
2.生成模型,结果导出
[html] view plain copy
#生成logis模型,用glm函数
#用训练集数据生成logis模型,用glm函数
#family:每一种响应分布(指数分布族)允许各种关联函数将均值和线性预测器关联起来。常用的family:binomal(link='logit')--响应变量服从二项分布,连接函数为logit,即logistic回归
pre
summary(pre)
#测试集的真实值
real
#predict函数可以获得模型的预测值。这里预测所需的模型对象为pre,预测对象newdata为测试集,预测所需类型type选择response,对响应变量的区间进行调整
predict.
#按照预