【机器学习】 第三章 逻辑回归

目录

一、什么是逻辑回归(logistic regression)

1.1 定义

1.2 算法核心思想

二、逻辑回归的数学原理

2.1逻辑函数--Sigmoid函数

2.2 将线性预测映射为概率值

三、实现逻辑回归

3.1 模型训练

3.1.1 最大似然估计 (Maximum Likelihood Estimation, MLE)

3.1.2 梯度下降优化

3.2 模型评估

四、总结

4.1逻辑回归优点

4.2 逻辑回归局限性

4.3 逻辑回归适用场景

一、什么是逻辑回归(logistic regression)

1.1 定义

逻辑回归是一种经典的统计学习方法,被广泛用于解决二分类问题。

尽管名字中含有"回归"一词,但实际上它是一种分类算法。

用于预测一个二元因变量(即因变量的取值只有两种可能,如“是/否”,“0/1”,“成功/失败”等)与一个或多个自变量之间的关系。

1.2 算法核心思想

逻辑回归模型的核心在于使用逻辑函数(通常是Sigmoid函数)来估计概率,从而将线性回归模型的输出(通常是一个连续值)转换为介于0和1之间的概率值。

二、逻辑回归的数学原理

2.1逻辑函数--Sigmoid函数

\sigma(z) = \frac{1}{1 + e^{-z}}

其中

  • z 是线性回归模型的输出,即 z=w1​x1​+w2​x2​+⋯+wn​xn+b​=\mathbf{w}^T \mathbf{x} + b

Sigmoid函数具有以下特性:

  • 输出范围在  (0, 1)  之间,适合表示概率值
  • z \rightarrow +\infty时 \sigma(z) \rightarrow 1
  • z \rightarrow -\infty\sigma(z) \rightarrow 0
  • 当z=0时\sigma(z) = 0.5

2.2 将线性预测映射为概率值

在逻辑回归中,我们将线性模型的输出 z = \mathbf{w}^T \mathbf{x} + b 输入sigmoid函数

得到类别 ( y = 1 ) 的概率估计为: 

P(y = 1 \mid \mathbf{x}; \mathbf{w}, b) = \sigma(\mathbf{w}^T \mathbf{x} + b) = \frac{1}{1 + e^{-(\mathbf{w}^T \mathbf{x} + b)}}

类别 ( y = 0 ) 的概率则为:

P(y = 0 \mid \mathbf{x}; \mathbf{w}, b) = 1 - P(y = 1 \mid \mathbf{x}; \mathbf{w}, b) = 1 - \sigma(\mathbf{w}^T \mathbf{x} + b)

三、实现逻辑回归

3.1 模型训练

3.1.1 最大似然估计 (Maximum Likelihood Estimation, MLE)

假设有数据集{(\mathbf{x}^{(i)}, y^{(i)})}_{i=1}^{m}

其中

  • \mathbf{x}^{(i)} 是第 i 个样本的特征向量
  • y^{(i)}是对应的类标签(0或1)

逻辑回归模型的似然函数可以写作:

L(\mathbf{w}) = \prod_{i=1}^{m} P(y^{(i)}|\mathbf{x}^{(i)}; \mathbf{w}) = \prod_{i=1}^{m} \left( \hat{y}^{(i)} \right)^{y^{(i)}} \left( 1 - \hat{y}^{(i)} \right)^{1 - y^{(i)}}

其中\hat{y}^{(i)} = \sigma(\mathbf{w}^T \mathbf{x}^{(i)})即sigmoid函数应用于线性模型的输出

为了最大化似然函数 ( L(\mathbf{w}),通常采用对数似然函数  \ell(\mathbf{w}))进行优化,即:

\ell(\mathbf{w}) = \sum_{i=1}^{m} \left[ y^{(i)} \log \hat{y}^{(i)} + (1 - y^{(i)}) \log (1 - \hat{y}^{(i)}) \right]

通过最大化对数似然函数(寻找能够最大程度地使观察到的数据在给定模型下出现的概率),可以提高模型对数据的拟合能力,从而提高预测的准确性。

3.1.2 梯度下降优化

在逻辑回归中,我们使用对数似然函数作为损失函数,其梯度可以用来更新参数 \mathbf{w} 

具体步骤如下:

  • 初始化参数 \mathbf{w}:通常可以随机初始化或使用零向量。

  • 计算损失函数的梯度:对对数似然函数 \ell(\mathbf{w}) )求梯度,得到每个参数 w_{j}的梯度 \frac{\partial \ell(\mathbf{w})}{\partial w_j}

  • 更新参数:根据梯度的方向和学习率  \alpha ,更新参数 (\mathbf{w}): w_j := w_j - \alpha \frac{\partial \ell(\mathbf{w})}{\partial w_j} 

  • 重复迭代:重复上述步骤,直到损失函数收敛或达到预设的停止条件(如达到最大迭代次数或损失变化很小)。

3.2 模型评估

常用评估指标:准确率、精确率、召回率、F1分数等

四、总结

4.1逻辑回归优点

简单而有效、计算效率高、适用性广泛等

4.2 逻辑回归局限性

  • 线性限制:逻辑回归假设自变量之间是线性关系,无法捕捉复杂的数据模式。
  • 对特征空间的要求:逻辑回归要求特征空间是线性可分的。
  • 可能存在欠拟合问题:当特征之间存在非线性关系时,逻辑回归的表现可能不佳。

4.3 逻辑回归适用场景

  • 二分类问题:如预测用户是否会点击某个广告(点击/不点击),预测病人是否患有某种疾病(患病/未患病)等。
  • 概率预测:逻辑回归能够输出类别的概率,适合需要精确概率估计的场景。
  • 在线性可分数据集上的快速预测:对于线性可分的大规模数据集,逻辑回归能够快速训练和预测。

  • 19
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值