机器学习笔记——逻辑回归之二分类

最新推荐文章于 2025-02-08 12:20:49 发布

AgentSmart

最新推荐文章于 2025-02-08 12:20:49 发布

阅读量2.5k

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/dzc_go/article/details/108855689

版权

本文介绍了逻辑回归在二分类问题中的应用，解释了为什么不能直接使用线性回归解决此类问题，并详细阐述了逻辑回归的基本思路，包括sigmoid函数的作用、设计矩阵的维度、分类边界的确定以及采用交叉熵损失函数而非平方损失函数的原因。通过对损失函数的讨论，揭示了逻辑回归中凸函数优化的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、什么是逻辑回归？

逻辑回归（Logistic Regression）。虽然逻辑回归叫回归但却是用来解决分类问题的，并且常用于二分类问题。逻辑回归的本质是：假设数据服从某个分布，然后使用极大似然估计做参数的估计。
Logistic 分布是一种连续型的概率分布，其中， $\mu$ 表示位置参数， $\gamma$ 为形状参数。其分布函数和密度函数分别为：
我们接下来可能用到的和深度学习神经网络中常用的sigmoid函数就是Logistic函数的一个特例。logistic函数当 $\mu=0,\gamma=1$ 时就变成了sigmoid函数。该函数中心点为0（ $\mu=0$ ），值域分布为(-1,1)（ $\gamma=1$ ）。

其实分类也需要通过模型预测得到一个变量值，然后再根据该变量与分界标准与比对实现分类。那么能否用简单的线性回归来实现二分类呢？
上图表示的含义是：根据肿瘤大小来分类肿瘤良性或者是恶性。分析上图，当我们的训练数据集只有左下方4个和中间4个时，我i们可以得到蓝色的线性回归直线，我们可以使用0.5当作分界值来分类良性与恶性。
但如果我们将右上方的点考虑进来，也就是极端情况（肿瘤很大且是恶性）。根据以上数据我们可能得到红色的回归直线，当然不能再使用0.5的分界线，假设使用0.7的分界线，那么我们部分恶性肿瘤就可能被判断为良性。
因此线性回归模型很容易收到极端数据的影响，不可以用简单的线性回归模型来解决二分类问题。