![c4af5303f7044d6f65162b1c42e8945f.png](https://i-blog.csdnimg.cn/blog_migrate/ff63e9f482ed95588751b828713b8c24.jpeg)
在第四十五投必得论文编译:第四十五讲 R-逻辑回归概论和四十六讲中第四十六讲 R-逻辑回归结果解读,我们为大家讲解了常见的逻辑回归,其结果变量(因变量)为二分类变量(是/否)
但是在实际情况中,我们的结果变量不一定是二分类,它也可能是三分类,四分类,甚至更多类别,比如肿瘤的分期,疾病的分类等。这时,我们需要使用到经过改进的逻辑回归,即多项逻辑回归,又叫多类别逻辑回归(multinomial logistic regression)。
与其他预测模型一样,它通过对数据建立模型,对多类别结果变量进行预测。我们可以使用R软件的nnet包实现。下面我们将结合一个R实例,对多项逻辑回归的原理进行解释。
1. 加载所需的R包
- tidyverse 便于数据操作
- caret 用于简单的预测建模
- nnet 用于计算多项逻辑回归
library(tidyverse)
library(caret)
library(nnet)
2. 准备数据
我们将使用R软件datasets包中自带的iris数据集,根据预测变量Sepal.Length,Sepal.Width,Petal.Length,Petal.Width预测虹膜种类(Species)。虹膜种类在我们的数据中分为setosa,versicolor和virginica三种类型。
我们首先将数据随机分为训练集(用于建立预测模型的80%)和测试集(用于评估模型的20%)。设置随机种子set.seed(),确保结果的可重复性。
# 导入数据
library(datasets)
data("iris")
# 简单查看数据
sample_n(iris, 3)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.7 2.8 4.5 1.3 versicolor
2 6.3 2