R-多分类logistic回归(机器学习)

本文介绍了如何使用R中的DALEX包处理多分类问题,通过随机森林模型分析HR数据,探讨了变量重要性、边际效应以及个体预测,展示了如何解释复杂模型的结果。
摘要由CSDN通过智能技术生成

多分类logistic回归

在之前文章介绍了,如何在R里面处理多分类的回归模型,得到的是各个因素的系数及相对OR,但是解释性,比二元logistic回归方程要冗杂的多。

那么今天继续前面的基础上,用机器学习的方法来解释多分类问题。
其实最终回归到这类分类问题的本质:有了一系列的影响因素x,那么根据这些影响因素来判断最终y属于哪一类别。

image.png

1.数据案例

这里主要用到DALEX包里面包含的HR数据,里面记录了职工在工作岗位的状态与年龄,性别,工作时长,评价及薪水有关。根据7847条记录来评估,如果一个职工属于男性,68岁,薪水及评价处于3等级,那么该职工可能会处于什么状态。

library(DALEX)
library(iBreakDown)
library(car)
library(questionr)
try(data(package="DALEX"))
data(HR)

# split
set.seed(543)
ind = sample(2,nrow(HR),replace=TRUE,
logistic回归是一种广泛应用于二分类问题中的机器学习算法,但它也可以扩展到多分类问题。在多分类问题中,我们可以使用一对多(One-vs-All)方法来应用logistic回归。 一对多方法是将多分类问题拆解为多个二分类问题。具体而言,我们首先选择一个类别作为正类别,将其余的所有类别作为负类别。然后,我们训练一个二分类logistic回归模型来预测一个实例是否属于正类别。我们重复这个步骤,选择另一个类别作为正类别,直到覆盖了所有的类别。 在预测阶段,我们将测试实例输入到每个训练好的logistic回归模型中,获得关于它属于每个类别的概率。然后,我们选择具有最高概率的类别作为预测结果。 logistic回归对于多分类问题有几个优点。首先,它计算简单,训练速度快。其次,它对于输入特征和输出之间的关系是具有可解释性的,可以帮助我们理解和解释预测结果。此外,logistic回归可以处理连续型和离散型的特征,适用于多种不同类型的数据。 然而,logistic回归也有一些限制。例如,它假设了特征与输出之间的线性关系,并不能很好地处理复杂的非线性关系。此外,它对异常值和噪声比较敏感,需要对数据进行预处理和清洗。 在实际应用中,logistic回归多分类可以用于许多问题,例如手写数字识别、情感分析、疾病诊断等。它是一个相对简单和有效的算法,可以作为多分类问题的基准算法之一。
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

辣椒种子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值