sklearn机器学习——逻辑回归（一）

咸鱼2K

已于 2023-02-09 09:24:43 修改

阅读量1.4k

点赞数

文章标签： python Powered by 金山文档

于 2023-02-09 09:23:03 首次发布

本文链接：https://blog.csdn.net/weixin_39736118/article/details/128900094

版权

1 概述

1.1 名为“回归”的分类器

x为特征向量

通过函数，线性回归使用输入的特征矩阵X来输出一组连续型的标签值y_pred，以完成各种预测连续型变量的任务（比如预测产品销量，预测股价等等）。那如果我们的标签是离散型变量，尤其是，如果是满足0-1分布的离散型变量，我们要怎么办呢？我们可以通过引入联系函数(link function)，将线性回归方程z变换为g(z)。

并且令g(z)的值分布在(0,1)之间，且当g(z)接近0时样本的标签为类别0，当g(z)接近1时样本的标签为类别1，这样就得到了一个分类模型

z越大，越靠近1；越小越靠近0。都是无限趋近

限此，其对应的模型被称为”对数几率回归“（logistic Regression），也就是我们的逻辑回归

长年以来人们都是以”返回概率“的方式来理解逻辑回归，并且这样使用它的性质。可以说，逻辑回归返回的数字，即便本质上不是概率，却也有着概率的各种性质，可以被当成是概率来看待和使用。

不是概率，但也有概率的性质，此处当作概念使用。

1.2 为什么需要逻辑回归

逻辑回归的原理其实并不简单。一个人要理解逻辑回归，必须要有一定的数学基础，必须理解损失函数，正则化，梯度下降，海森矩阵等等这些复杂的概念，才能够对逻辑回归进行调优。其涉及到的数学理念，不比支持向量机少多少。况且，要计算概率，朴素贝叶斯可以计算出真正意义上的概率，要进行分类，机器学习中能够完成二分类功能的模型简直多如牛毛。因此，在数据挖掘，人工智能所涉及到的医疗，教育，人脸识别，语音识别这些领域，逻辑回归没有太多的出场机会。（也就是是或者不是等分类，非线性的情况）

逻辑回归对线性关系的拟合效果好到丧心病狂（非线性则不好用）

逻辑回归计算快

逻辑回归返回的分类结果不是固定的0，1，而是以小数形式呈现的类概率数字

由此，我们已经了解了逻辑回归的本质，它是一个返回对数几率的，在线性数据上表现优异的分类器，它主要被应用在金融领域。其数学目的是求解能够让模型对数据拟合程度最高的参数的值，以此构建预测函数，然后将特征矩阵输入预测函数来计算出逻辑回归的结果y。注意，虽然我们熟悉的逻辑回归通常被用于处理二分类问题，但逻辑回归也可以做多分类

1.3 sklearn中的逻辑回归

2 linear_model.LogisticRegression

2.1 二元逻辑回归的损失函数

2.1.1 损失函数的概念与解惑

使用”损失函数“这个评估指标，来衡量参数为的模型拟合训练集时产生的信息损失的大小，并以此衡量参数的优劣。

如果用一组参数建模后，模型在训练集上表现良好，那我们就说模型拟合过程中的损失很小，损失函数的值很小，这一组参数就优秀；相反，如果模型在训练集上表现糟糕，损失函数就会很大，模型就训练不足，效果较差，这一组参数也就比较差。即是说，我们在求解参数时，追求损失函数最小，让模型在训练数据上的拟合效果最优，即预测准确率尽量靠近100%

由于我们追求损失函数的最小值，让模型在训练集上表现最优，可能会引发另一个问题：如果模型在训练集上表示优秀，却在测试集上表现糟糕，模型就会过拟合。虽然逻辑回归和线性回归是天生欠拟合的模型，但我们还是需要控制过拟合的技术来帮助我们调整模型，对逻辑回归中过拟合的控制，通过正则化来实现。——————用正则化来防止过拟合

2.2 重要参数penalty & C

2.2.1 正则化