R语言回归与分类（一）— 逻辑回归

Statistics 乐

已于 2023-08-23 00:15:36 修改

阅读量201

点赞数

分类专栏： R语言回归与分类文章标签：回归分类逻辑回归 r语言数据分析机器学习

于 2023-08-11 10:52:39 首次发布

本文链接：https://blog.csdn.net/m0_69490017/article/details/132226123

版权

R语言回归与分类专栏收录该内容

5 篇文章 3 订阅

订阅专栏

建模

下面通过R语言生成随机数来了解下用R语言建立逻辑回归模型

set.seed(1010)
N <- 100
x1 <- rnorm(N)
x2 <- runif(N)
epsilon <- rnorm(N)
y <- 2*x1 + 3*x2 + epsilon 
y.class <- ifelse(y>0,1,0)
sim.data <- data.frame(x1,x2,y.class)

接着调用glm()函数拟合模拟数据如下：

model <- glm(y.class~x1+x2,family = "binomial",data = sim.data)
#family = "binomial"选项告诉R使用逻辑回归而不是其他广义线性模型
summary(model)

预测

对数几率比的预测

glm.logodd <- predict(model,newdata = sim.data)
head(glm.logodd)

几率比的预测

head(exp(glm.logodd))

如果在模型中加入参数type = “response”的选项将会使得R输出P(Y=1|X)

glm.pro <- predict(model,newdata = sim.data,type = "response")
head(glm.pro)

如果此时规定P(Y=1|X)>0.5时候Y取1否则取0，接着输出如下:

model.predict<- ifelse(glm.pro>0.5,1,0)
head(model.predict)

可以计算逻辑回归的混淆矩阵如下：

table(sim.data$y.class,model.predict)

通过ROC曲线判别分类质量

x轴表示假阳性率，y轴表示真阳性率，为了对比我们生成一组随机数

sim.data$pro_hat <- glm.pro
sim.data$random_data <- runif(N)
library(data.table)
roc_data<- melt(sim.data[,c(3,4,5)],id.vars="y.class",variable.name = "class",value.name ="response")
library(plotROC)
ggroc <- ggplot(roc_data, aes(d=y.class, m=response, color=class)) +
            geom_roc() +
            scale_color_discrete(name = "class", labels = c("logit", "Random")) +
            geom_abline()
ggroc