【机器学习】十大算法之一 “逻辑回归”

爱笑的男孩。

于 2023-06-21 16:07:59 发布

阅读量1.3k

点赞数 1

分类专栏： python 机器学习文章标签：机器学习算法逻辑回归 python 人工智能

本文链接：https://blog.csdn.net/code_and516/article/details/131328181

版权

python 同时被 2 个专栏收录

40 篇文章 7 订阅

订阅专栏

机器学习

11 篇文章 7 订阅

订阅专栏

本文详细介绍了逻辑回归算法，从发展历程、算法公式、工作原理到实际应用，包括二分类和多分类问题的处理。通过Python代码示例展示了如何在机器学习项目中运用逻辑回归。文章强调了逻辑回归的易用性、可解释性和广泛适用性，同时也指出了其对异常值敏感的缺点。

摘要由CSDN通过智能技术生成

作者主页：爱笑的男孩。的博客_CSDN博客-深度学习,活动,python领域博主爱笑的男孩。擅长深度学习,活动,python,等方面的知识,爱笑的男孩。关注算法,python,计算机视觉,图像处理,深度学习,pytorch,神经网络,opencv领域.https://blog.csdn.net/Code_and516?type=blog个人简介：打工人。

持续分享：机器学习、深度学习、python相关内容、日常BUG解决方法及Windows&Linux实践小技巧。

如发现文章有误，麻烦请指出，我会及时去纠正。有其他需要可以私信我或者发我邮箱:zhilong666@foxmail.com

逻辑回归算法是机器学习中应用广泛的一种分类算法，它的主要功能是用于预测待分类数据的类别。从逻辑回归算法的发展史来看，该算法最早是用于解决二分类问题的，并且是基于线性回归模型和逻辑函数（也叫称为Sigmoid函数）发展而来的。随着机器学习的不断发展，逻辑回归算法也得到了广泛的应用，并且也衍生出了多种改进算法，例如正则化逻辑回归、多项式逻辑回归、逻辑回归神经网络等。

本文将详细讲解机器学习十大算法之一“逻辑回归”

一、简介

逻辑回归算法是一种用于分类问题的机器学习算法，其基本原理是利用线性回归模型对数据进行拟合，并通过逻辑函数对结果进行分类。

逻辑回归算法的主要特点是模型简单、计算方便，并且能够处理大规模数据。我们可以将逻辑回归算法应用于二分类问题和多分类问题中，对于二分类问题，逻辑回归算法通常将数据分为两个类别，例如阴性和阳性，假和真等；而对于多分类问题，逻辑回归算法则可以将数据分为多个类别。

二、发展史

逻辑回归的发展可以追溯到19世纪初，当时康多内（G.A. Cornu）和皮尔逊（K. Pearson）研究了生物学的性别比例问题，他们提出了一种解决这个问题的方法，也就是将二维数据拟合到一条直线上。但是当时还没有计算机，这个方法并没有得到广泛的应用。

20世纪初，逻辑回归又被提出，在当时的环境下，由于电子计算技术的进步，计算机的出现，逻辑回归的应用得到了广泛的推广。从此以后，逻辑回归逐渐成为一个被广泛使用的算法，它不仅可以解决二分类问题，还可以解决多分类问题。

三、算法公式

逻辑回归算法的核心是sigmoid函数（也称为logistics函数），它能够将输入的预测值转化为0到1的离散值，从而完成预测。sigmoid函数的公式如下：

其中z为任意实数，当z大于0时，sigmoid(z)趋近于1，当z小于0时，sigmoid(z)趋近于0。因此，逻辑回归模型将输入x转化为z，再通过sigmoid函数处理得到概率值p，即：

其中，称为逻辑回归的函数表达式，w和b是模型的参数。w是一个长度为n的向量，代表了各个特征的权重大小，b是一个常数，代表了模型的偏置。通过调整w和b的值，可以得到最优的模型。逻辑回归的目标是最大化所有样本的似然函数，即：

其中，y为分类结果，x为特征向量。

四、算法原理

逻辑回归的原理是基于极大似然估计的思想，通过最大化似然函数来得到模型的参数。在二分类问题中，似然函数的公式为：

其中，n为样本数，yi为样本的分类结果，p(xi)为样本分类为正类的概率，1−p(xi)为分类为负类的概率。因此，逻辑回归的最小化目标就是最大化似然函数，即：

为了方便计算，我们通常对似然函数取对数，目标就变成了最小化损失函数J(w,b)：

其中，n为样本数，yi为样本的分类结果，p(xi)为样本分类为正类的概率，1−p(xi)为分类为负类的概率。通过梯度下降法可以最小化损失函数，得到最优的参数w和b。

五、算法功能

逻辑回归算法在实际应用中有以下几个功能：

1、逻辑回归算法可以处理二分类问题和多分类问题，对于二分类问题，逻辑回归算法通常将数据分为两个类别，例如阴性和阳性，假和真等；而对于多分类问题，逻辑回归算法则可以将数据分为多个类别。

2、逻辑回归算法可以处理高维数据，我们可以使用逻辑回归算法对高维数据进行分类。

3、逻辑回归算法是机器学习中最简单的算法之一，其计算速度非常快，并且可以应用于大规模数据上。

4、逻辑回归算法提供了一种可解释性强的分类模型，我们可以通过对系数的解释来推断哪些特征对预测结果的影响最大。

逻辑回归算法是一种非常实用的二分类模型，其优点如下：

逻辑回归是一种基于概率论的模型，能够直观地解释模型的预测结果。
逻辑回归算法是一个轻量级的线性模型，能够快速地训练和预测。
逻辑回归算法支持在线学习和增量学习，可以动态地调整模型参数。
逻辑回归算法可以通过正则化等方法进行模型优化，具有很强的鲁棒性和泛化能力。
逻辑回归算法的应用范围非常广泛，可以用于金融风控、医疗预测等领域，因此在实际应用中具有很高的价值。

六、示例代码

为了更好地理解逻辑回归的实现过程，我在此提供一个Python版本的逻辑回归示例代码。下面是一个二分类鸢尾花数据集的例子，代码如下：

from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score

# 1. 加载数据
iris = load_iris()
X = iris.data
y = iris.target

# 2. 数据预处理
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 3. 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# 4. 构建模型
lr = LogisticRegression(random_state=42)

# 5. 模型训练
lr.fit(X_train, y_train)

# 6. 模型预测
y_pred = lr.predict(X_test)

# 7. 计算模型精度
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

在上面代码中，首先我们从Sklearn的数据集中导入鸢尾花数据集，并将其存储在变量X中。然后，我们对数据进行标准化处理并将其划分为训练集和测试集。接下来，我们用LogisticRegression函数构建一个逻辑回归模型，然后对训练集数据进行训练。最后，我们预测测试集的类别并计算模型精度。

运行该代码后，可以得到如下的结果：