逻辑回归损失函数推导及求导

最新推荐文章于 2025-03-12 16:43:52 发布

sbill-fu

最新推荐文章于 2025-03-12 16:43:52 发布

阅读量1.4w

点赞数 12

分类专栏：机器学习文章标签：机器学习逻辑回归

本文链接：https://blog.csdn.net/fu_9701/article/details/83097176

版权

本文介绍了逻辑回归的优点和缺点，如简单实现、快速分类，但也指出其可能的欠拟合和仅适用于线性可分的二分类问题。重点讲解了逻辑回归的损失函数，通过极大似然估计法得出损失函数表达式，并对其求导得到梯度。实际应用中，通常使用随机梯度下降或拟牛顿法进行参数优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

优点

实现简单；
分类时计算量非常小，速度很快，存储资源低；

缺点

容易欠拟合，一般准确度不太高
只能处理两分类问题（在此基础上衍生出来的softmax可以用于多分类），且必须线性可分

损失函数

逻辑回归的公式为：
$\frac{1} {1 + e^{-(w^Tx+b)}}$

假设有N个样本，样本的标签只有0和1两类，可以用极大似然估计法估计模型参数，从而得到逻辑回归模型

设yi=1的概率为pi，yi=0的概率为1 - pi，那么观测的概率为：
$p(y_i) = p_i^{y_i} * (1-p_i)^{1-y_i}$
可以看到这个公式很巧妙的将0和1两种情况都包括进去，数学真是美妙的东西

概率由逻辑回归的公式求解，那么带进去得到极大似然函数：
$\prod_i^N h(x_i)^{y_i} * (1-h(x_i))^{1-y_i}$

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sbill-fu

关注关注

12
点赞
踩
50

收藏

觉得还不错? 一键收藏
4
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

卷积神经网络系列之softmax loss对输入的求导推导

AI之路

03-20

2万+

我们知道卷积神经网络（CNN）在图像领域的应用已经非常广泛了，一般一个CNN网络主要包含卷积层，池化层（pooling），全连接层，损失层等。虽然现在已经开源了很多深度学习框架（比如MxNet，Caffe等），训练一个模型变得非常简单，但是你对损失函数求梯度是怎么求的真的了解吗？相信很多人不一定清楚。虽然网上的资料很多，但是质量参差不齐，常常看得眼花缭乱。为了让大家少走弯路，特地整理了下这些知识点...

损失函数求导

qq_51011530的博客

09-18

703

对于一个函数fxf(x)fx，如果在某个点x0x_0x0附近，函数的变化趋势可以用一个线性函数（即导数）来近似，则我们说这个函数在x0x_0x0点可微。更形式化地，函数fxf(x)fx在点x0x_0x0f′x0lim⁡h→0fx0h−fx0hf′x0h→0limhfx0h−fx0如果这个极限存在且是有限值，那么fxf(x)fx在x0x_0x0处是。

4 条评论您还未登录，请先登录后发表或查看评论

损失函数的导函数（求导）

h2728677716的博客

02-13

1514

MSE对theta求偏导求得的是一组g

机器学习——逻辑回归

最新发布

zdx2585503940的博客

03-12

1828

本模型要查看的评估指标为recall（召回率）。由结果发现，模型训练集和测试集上的recall值都不是很高，原因是为什么呢？我们发现数据集中正负样本个数相差太大，标签为0的样本有284315个，标签为1的样本数仅仅只有492个。这样的数据集我们称为不平衡数据集，它可能导致模型偏向于多数类，从而影响少数类的预测性能。那么我们该怎么解决这一问题呢？之后的两篇文章我们会采用两种不同方法来解决这类情况。

机器学习数学原理专题——回归模型：损失函数求导

qq_58718853的博客

04-09

2676

广义线性模型中回归模型损失函数矩阵求导中的数学原理整理笔记

对逻辑回归损失函数进行求导

h2728677716的博客

02-23

2013

如果我们基于逻辑回归的损失函数做GD梯度下降，那么就要求梯度，而我们知道求梯度是loss损失函数对theta求偏导。 1.首先先对逻辑回归函数求导（后面对loss求偏导会用到） 2.逻辑回归损失函数 可以将上式看成两部分分别求到再相加这里我们发现导函数的形式和多元线性回归一样，毕竟都是从广义线性回归来的嘛。这样就可以用上面推导的公式求出梯度g 进而运用梯度下降公式反复迭代减小损失。 ...

逻辑回归损失函数推导及其模型的推导

m0_49863527的博客

08-18

1760

注：本篇文章求解思路、过程均为原创，本文出现的文字、公式等均为对照原计算手稿逐字手敲，绝无复制粘贴学术不端之举，转载请注明URL以及出处。 1.什么是逻辑回归？ Logistic−RegressionLogistic-RegressionLogistic−Regression是一种广义线性回归，与多重线性回归分析有很多相同之处。如它们的模型形式基本上相同，都具有 w∗x+bw*x+bw∗x+b。而多重线性回归直接将 w∗x+bw*x+bw∗x+b 作为因变量，因此他们的因变量不同。下文中所出现的 w∗x

逻辑回归算法理解（包含损失函数求导过程详细推导）

chenjunheaixuexi的博客

05-31

1493

本文目录一、Sigmoid函数基本信息特点二、逻辑回归函数基本函数极大似然估计目标函数参数优化 逻辑回归模型是应用较为广泛的一个模型，其可以看做是在线性回归的基础上，对结果又加了SigmoidSigmoidSigmoid函数，然后通过设定的分类阈值，来解决二分类问题（即如果结果大于或小于分类阈值）。一、Sigmoid函数基本信息其函数表达式为:y(x)=11+e−xy(x)=\frac{1}{1+e^{-x}}y(x)=1+e−x1 其图像如下：特点通过图像我们可以看出，Sigmoid函数

线性回归和逻辑回归损失函数推导

AndrewHR的博客

07-30

7101

线性回归和逻辑回归损失函数推导 @(数据挖掘) 线性回归和逻辑回归损失函数推导一、线性回归最小二乘loss推导二、logistics回归加sigmoid原因以及交叉熵损失函数推导一、线性回归最小二乘loss推导我们都知道线性回归是机器学习中最简单，使用范围也很广的一个算法，经典且使用。而它的损失函数最小二乘损失，大家也很熟悉，但是为什么要用最小二乘loss呢？正...

逻辑回归：从极大似然估计角度推导损失函数

m0_73602487的博客

05-09

319

从极大似然的角度推导逻辑回归中的交叉熵损失函数

损失函数求导问题

m0_56412170的博客

11-04

223

求本题解析，i与k的关系没搞明白，哪位可以帮忙解答一下

逻辑回归损失函数求导过程

weixin_41798111的博客

12-19

399

逻辑logistic回归代价函数梯度下降推导过程： log 就是 ln

【机器学习学习总结（一）】常用损失函数及导函数

江湖小Jay的博客

04-10

2087

1、学习人工智能快半年了，从ML到DL，又忘了前面的知识，于是在此总结一下在机器学习中常用的损失函数和导函数，以便以后复习。文中内容仅为笔者总结，仅供大家参考，其中若有错误请大家批评指正。 ...

逻辑回归的损失函数（推导）

h2728677716的博客

02-23

884

前言：不管是逻辑回归还是线性回归，比较好的减少loss损失的方法就是GD梯度下降。而用梯度下降就要用到求损失函数，求损失函数就要用到最大似然估计MLE。 1.逻辑回归的概率表达式对于预测正确的概率，可以将上面两个式子合并 2.运用最大似然估计求出最大概率假设我们有m条样本，那么m条样本用概率公式相乘的最大值就是最大似然估计用公式表达就是：取log对数相乘符号变相加符号 ...

Sigmoid函数与损失函数求导

欢迎交流指导

08-27

2199

1. sigmoid函数 sigmoid函数，也就是s型曲线函数，如下：函数：f(z)=11+e−zf(z)=\frac{1}{1+e^{-z}}f(z)=1+e−z1 导数：f′(z)=f(z)(1−f(z))f'(z)=f(z)(1-f(z))f′(z)=f(z)(1−f(z)) 上面是我们常见的形式，虽然知道这样的形式，也知道计算流程，不够感觉并

Softmax Regression损失函数的求导

mabel爱消消乐的博客

03-31

826

softmax regression 代价函数： J(θ)=−1m[∑i=1m∑j=1kI{y(i)=j}logeθjTX(i)∑l=1keθlTX(i)] J(\theta) = -\frac{1}{m}\left[\sum_{i=1}^{m}\sum_{j=1}^{k}I\{y^{(i)}=j\}log \frac{e^{{\theta_j^T}{X^{(i)}}}}{\sum_{l=1}...

逻辑回归损失函数求导推导过程

weixin_42468092的博客

06-22

569

逻辑回归——分类算法代价函数的寻找 sigmoid函数的非线性会导致损失函数变得非线性，无法找到全局最优值，所以需要进行损失函数替换。代价函数的合理性分析预测正确，损失较小；预测错误，损失较大两个式子合并为一个式子梯度下降过程推导过程 ...

Logistic回归损失函数推导

成功唯有积累，没有奇迹。

01-29

4041

【学习任务】 Logistic回归损失函数的极大似然推导：西瓜书公式3.27怎么推来的？ Logistic回归损失函数的最优化算法：什么是牛顿法、拟牛顿法？为什么不用线性回归做分类？ Logistic回归为什么不像线性回归那样用平方损失函数？ Logistic回归的参数为什么不像线性回归那样直接公式求解？ Logistic回归与线性回归有哪些联系？一.Logisti...

逻辑回归的损失函数（对数似然函数）求导

03-11

<think>好的，我现在需要帮助用户理解逻辑回归的损失函数，也就是对数似然函数的求导过程。首先，我得回顾一下逻辑回归的基本原理。逻辑回归虽然名字里有“回归”，但它实际上是一个分类模型，通常用于二分类问题。它的核心是使用sigmoid函数将线性组合映射到0到1之间，表示概率。用户的问题是要求对数似然函数的导数，这通常是用来进行参数更新的，比如在梯度下降法中。对数似然函数的推导过程涉及到一些微积分，可能需要分步骤讲解。首先，我需要确认用户是否了解逻辑回归的假设和sigmoid函数的形式，因为这是推导的基础。接下来，我应该回忆一下逻辑回归的损失函数，也就是对数似然损失函数。对于二分类问题，假设真实标签是y∈{0,1}，预测的概率是hθ(x)=σ(θ^T x)，其中σ是sigmoid函数。对数似然函数通常写作L(θ)=Σ [y_i log(hθ(x_i)) + (1-y_i) log(1-hθ(x_i))]，然后取负号作为损失函数，即J(θ)=-L(θ)。所以求导的时候实际上是针对J(θ)求导，然后更新参数θ。现在需要对这个损失函数J(θ)关于θ_j求导。我需要分步骤来推导。首先，写出单个样本的损失项：对于第i个样本，损失是 -[y_i log(h_i) + (1-y_i) log(1-h_i)]，其中h_i=σ(θ^T x_i)。然后，整个损失函数是所有样本的平均，即J(θ)= (1/m) Σ 损失项。不过有时候也会省略1/m，因为缩放不会影响梯度的方向，只是影响步长。接下来，对单个样本的损失关于θ_j求导。这里需要应用链式法则。首先，h_i = σ(z_i)，其中z_i = θ^T x_i。sigmoid函数的导数是σ'(z)=σ(z)(1-σ(z))。因此，dh_i/dθ_j = h_i(1-h_i) x_ij，这里的x_ij是第i个样本的第j个特征值。然后，单个样本的损失对θ_j的导数是：- [y_i / h_i * dh_i/dθ_j - (1-y_i)/(1-h_i) * dh_i/dθ_j ]。合并项之后，可以得到 - [ y_i(1-h_i) x_ij - (1-y_i)h_i x_ij ]。进一步简化，得到 (h_i - y_i) x_ij。因为当y_i=1时，第二项消失，剩下h_i -1乘以x_ij，而当y_i=0时，第一项消失，得到h_i x_ij，但符号可能需要注意。这里可能需要仔细检查推导过程是否正确。将整个损失函数的导数求平均后，得到梯度向量为 (1/m) Σ (h_i - y_i) x_i，其中x_i是第i个样本的特征向量。这个结果看起来简洁，但推导过程中需要确保每一步都正确，尤其是符号的处理。用户可能需要详细的步骤解释，而不仅仅是最终结果。因此，我应该将整个过程分解开来，逐步说明，确保每个中间步骤都清晰。例如，先写出sigmoid函数及其导数，再处理单个样本的损失函数导数，最后扩展到所有样本的平均梯度。还需要注意可能的误区，比如损失函数的选择，对数似然和交叉熵的关系，以及为什么使用梯度下降法来优化。同时，可能需要解释为什么导数结果如此简洁，以及它的实际意义，比如梯度反映了预测误差与特征值的乘积，这在参数更新中的作用。此外，用户可能对为什么使用对数似然函数而不是其他损失函数感兴趣，比如平方误差。这里可以简要提到，平方误差在逻辑回归中会导致非凸的优化问题，而对数似然损失是凸的，更容易找到全局最优解。最后，总结整个推导过程，并可能给出梯度下降更新参数的公式，即θ_j := θ_j - α * (梯度)，其中α是学习率。确保用户能够理解从损失函数到梯度计算的整个流程，以及如何应用于实际参数更新中。</think>--- ### **逻辑回归损失函数（对数似然函数）求导详解** 逻辑回归的损失函数（对数似然函数）的推导是理解模型参数优化的关键步骤。以下分步解析其求导过程： --- #### **1. 基础定义** - **逻辑回归模型**：预测函数为Sigmoid函数： $$ h_\theta(x) = \sigma(\theta^T x) = \frac{1}{1 + e^{-\theta^T x}} $$ 其中，$\theta$ 为参数向量，$x$ 为特征向量。 - **损失函数（对数似然函数）**：二分类问题中，负对数似然函数（交叉熵损失）为： $$ J(\theta) = -\frac{1}{m} \sum_{i=1}^m \left[ y^{(i)} \log h_\theta(x^{(i)}) + (1 - y^{(i)}) \log (1 - h_\theta(x^{(i)})) \right] $$ 其中，$m$ 为样本数量，$y^{(i)} \in \{0,1\}$ 为标签。 --- #### **2. 单样本导数推导** 以单个样本 $(x^{(i)}, y^{(i)})$ 为例，损失项为： $$ L^{(i)}(\theta) = -y^{(i)} \log h_\theta(x^{(i)}) - (1 - y^{(i)}) \log (1 - h_\theta(x^{(i)})) $$ **目标**：求 $\frac{\partial L^{(i)}}{\partial \theta_j}$（对参数 $\theta_j$ 的偏导）。 --- ##### **步骤1：计算 Sigmoid 函数的导数** Sigmoid 函数的导数为： $$ \sigma'(z) = \sigma(z)(1 - \sigma(z)) $$ 令 $z = \theta^T x^{(i)}$，则： $$ \frac{\partial h_\theta(x^{(i)})}{\partial \theta_j} = h_\theta(x^{(i)}) (1 - h_\theta(x^{(i)})) \cdot x_j^{(i)} $$ --- ##### **步骤2：展开损失项对 $\theta_j$ 的偏导** 对 $L^{(i)}$ 求导： $$ \begin{aligned} \frac{\partial L^{(i)}}{\partial \theta_j} &= -\frac{y^{(i)}}{h_\theta(x^{(i)})} \cdot \frac{\partial h_\theta(x^{(i)})}{\partial \theta_j} + \frac{1 - y^{(i)}}{1 - h_\theta(x^{(i)})} \cdot \frac{\partial h_\theta(x^{(i)})}{\partial \theta_j} \\ &= \left[ -\frac{y^{(i)}}{h_\theta(x^{(i)})} + \frac{1 - y^{(i)}}{1 - h_\theta(x^{(i)})} \right] \cdot h_\theta(x^{(i)}) (1 - h_\theta(x^{(i)})) \cdot x_j^{(i)} \\ \end{aligned} $$ --- ##### **步骤3：化简表达式** 合并项后： $$ \begin{aligned} \frac{\partial L^{(i)}}{\partial \theta_j} &= \left[ -y^{(i)}(1 - h_\theta(x^{(i)})) + (1 - y^{(i)}) h_\theta(x^{(i)}) \right] \cdot x_j^{(i)} \\ &= \left( h_\theta(x^{(i)}) - y^{(i)} \right) \cdot x_j^{(i)} \end{aligned} $$ --- #### **3. 全体样本的梯度** 对所有样本求平均梯度： $$ \frac{\partial J(\theta)}{\partial \theta_j} = \frac{1}{m} \sum_{i=1}^m \left( h_\theta(x^{(i)}) - y^{(i)} \right) x_j^{(i)} $$ 写成向量形式： $$ \nabla_\theta J(\theta) = \frac{1}{m} X^T (h_\theta(X) - Y) $$ 其中，$X$ 为设计矩阵，$Y$ 为标签向量。 --- #### **4. 直观解释** - **梯度含义**：梯度是 **预测误差** $h_\theta(x^{(i)}) - y^{(i)}$ 与 **特征值** $x_j^{(i)}$ 的乘积的平均值。 - **参数更新**：梯度下降更新公式为： $$ \theta_j := \theta_j - \alpha \cdot \frac{\partial J(\theta)}{\partial \theta_j} $$ 其中 $\alpha$ 为学习率。 --- #### **5. 关键点总结** | 步骤 | 核心公式/操作 | |-----------------------|-----------------------------------------------------------------------------| | 定义Sigmoid函数 | $h_\theta(x) = \frac{1}{1 + e^{-\theta^T x}}$ | | 损失函数（单样本） | $L^{(i)}(\theta) = -y^{(i)} \log h_\theta(x^{(i)}) - (1 - y^{(i)}) \log (1 - h_\theta(x^{(i)}))$ | | Sigmoid导数 | $\frac{\partial h_\theta}{\partial \theta_j} = h_\theta (1 - h_\theta) x_j^{(i)}$ | | 单样本梯度 | $\frac{\partial L^{(i)}}{\partial \theta_j} = (h_\theta(x^{(i)}) - y^{(i)}) x_j^{(i)}$ | | 全体样本梯度 | $\nabla_\theta J(\theta) = \frac{1}{m} X^T (h_\theta(X) - Y)$ | --- #### **6. 扩展思考** - **凸性保证**：对数似然函数是凸函数，梯度下降可收敛到全局最优解。 - **与线性回归对比**：线性回归的梯度为 $\frac{1}{m} X^T (X\theta - Y)$，形式类似但预测函数不同。 - **实际应用**：梯度公式直接用于代码实现（如Python中向量化计算提升效率）。 --- **注**：此推导是逻辑回归理论的核心，理解后可直接推广到多分类（Softmax回归）场景。