Logistic回归原理及Matlab代码

pilemoon

已于 2024-04-24 13:15:42 修改

阅读量4.6k

点赞数 56

分类专栏：机器学习算法文章标签：回归 matlab 数据挖掘逻辑回归分类机器学习人工智能

于 2024-04-21 15:08:24 首次发布

本文链接：https://blog.csdn.net/pilemoon/article/details/138030081

版权

本文介绍了回归问题与分类问题的区别，重点阐述了Logistic回归模型，包括Sigmoid函数在概率估计中的作用，参数估计方法，以及如何设定阈值进行分类。通过Matlab代码示例展示了如何使用Logistic回归进行二分类，并计算性能指标如ROC曲线和AUC值。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

回归问题与分类问题

在讲解Logistic回归的原理前，我们先看两类统计学中时常面临的问题：回归问题和分类问题。

在统计学中，变量常分为两种类型：定量变量与定性变量。

定量变量常常呈现数值性，即用数值（可以是连续的，也可以是离散的）来描述定量变量。比如：年龄、身高、收入都是定量变量，我们谈及18岁、身高183cm、月入15000元这些概念时，都能意识到这些概念可以用数值来量化，且这种量化方式是具有现实意义的。

另外一种变量类型为定性变量。一个定性变量是一个包含了相互区别元素的范畴，比如某人购买皮包的种类A、B、C，或疾病诊断结果E、F、G、H。在数据处理上我们可以将定性变量用数值编码，比如记皮包类型A、B、C为1、2、3，或疾病诊断结果为1、2、3、4，但这里的数字只是一种编码方式，对应于不同类别，却很难说有什么实际意义。（本质上不能用数量关系描述）因此我们说，通过编码方式使元素相互区分，但数值本身不具有（或者说很难被认为有）实际意义的变量，叫做定性变量。定性变量一定是离散的。

在基于预测变量对影响变量作出预测时，我们进行这样的分类：若一个问题的响应变量是定量变量，那么称这种问题为回归问题；若一个问题的响应变量是定性变量，那么称这种问题为分类问题。

回归问题的例子有：

（1）通过某地区税率、人均犯罪率、非住宅用地占比等一系列社会经济指标预测该地区房价；

（2）通过运动员战绩、职业生涯年限、所在联盟等信息推测其收入。

（3）通过职工受教育年限、以往业绩、所在部门等信息推断其年薪。

分类问题的例子有：

（1）临床上监测患者的生理指标，如血压、血氧饱和度、体温、心率等，判断患者健康状态。（好/不好，对应记为1和0，或再分多类）

（2）医生根据患者症状下诊断。中风记为1，服药过度为2，癫痫发作为3。

回归结果：信息-->年薪12万，12.5万，11.7万....

分类结果：信息-->患者健康（1），不健康（0）。

值得注意的是，回归问题和分类问题的界限并不绝对，比如下面要介绍的Logsitic回归既是分类模型，又可以看做对于概率的回归。