Logistic回归原理及Matlab代码

本文介绍了回归问题与分类问题的区别,重点阐述了Logistic回归模型,包括Sigmoid函数在概率估计中的作用,参数估计方法,以及如何设定阈值进行分类。通过Matlab代码示例展示了如何使用Logistic回归进行二分类,并计算性能指标如ROC曲线和AUC值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

回归问题与分类问题

Logistic回归模型

Sigmoid函数

某数据点的分类概率

参数估计

设定阈值、分类

Matlab代码

程序

示例


回归问题与分类问题

在讲解Logistic回归的原理前,我们先看两类统计学中时常面临的问题:回归问题和分类问题。

在统计学中,变量常分为两种类型:定量变量定性变量

定量变量常常呈现数值性,即用数值(可以是连续的,也可以是离散的)来描述定量变量。比如:年龄、身高、收入都是定量变量,我们谈及18岁、身高183cm、月入15000元这些概念时,都能意识到这些概念可以用数值来量化,且这种量化方式是具有现实意义的。

另外一种变量类型为定性变量。一个定性变量是一个包含了相互区别元素的范畴,比如某人购买皮包的种类A、B、C,或疾病诊断结果E、F、G、H。在数据处理上我们可以将定性变量用数值编码,比如记皮包类型A、B、C为1、2、3,或疾病诊断结果为1、2、3、4,但这里的数字只是一种编码方式,对应于不同类别,却很难说有什么实际意义。(本质上不能用数量关系描述)因此我们说,通过编码方式使元素相互区分,但数值本身不具有(或者说很难被认为有)实际意义的变量,叫做定性变量。定性变量一定是离散的。

在基于预测变量对影响变量作出预测时,我们进行这样的分类:若一个问题的响应变量是定量变量,那么称这种问题为回归问题;若一个问题的响应变量是定性变量,那么称这种问题为分类问题。

回归问题的例子有:

(1)通过某地区税率、人均犯罪率、非住宅用地占比等一系列社会经济指标预测该地区房价;

(2)通过运动员战绩、职业生涯年限、所在联盟等信息推测其收入。

(3)通过职工受教育年限、以往业绩、所在部门等信息推断其年薪。

分类问题的例子有:

(1)临床上监测患者的生理指标,如血压、血氧饱和度、体温、心率等,判断患者健康状态。(好/不好,对应记为1和0,或再分多类)

(2)医生根据患者症状下诊断。中风记为1,服药过度为2,癫痫发作为3。

回归结果:信息-->年薪12万,12.5万,11.7万....

分类结果:信息-->患者健康(1),不健康(0)。

值得注意的是,回归问题和分类问题的界限并不绝对,比如下面要介绍的Logsitic回归既是分类模型,又可以看做对于概率的回归。

Logistic回归模型

Logistic回归(Logistic Regression)是一种分类模型,可用于解决分类问题,即根据自变量来预测定性变量的响应值。在这里,我们仅讨论二分类的Logistic回归模型,即将预测结果只有两种分类的Logistic回归。

引入Logistic回归而非线性回归进行分类,是因为线性回归并不适用于分类问题。线性回归中,我们虽然可以用哑变量0和1表示两种分类建立线性回归模型,但分类结果可能在[0,1]之外,难以解释。引入Logistic回归使预测结果始终落在[0,1]之间。具体原理如下:

Sigmoid函数

首先介绍Sigmoid函数。Sigmoid函数源于生物学中的S型生长曲线(种群数量随时间增长,初态增速缓慢,继而增长迅速,最终趋于稳定),在机器学习中运用广泛。Sigmoid函数表达式为:

                                                          

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值