监督学习算法概览：线性回归、逻辑回归、SVM等

最新推荐文章于 2023-11-25 17:26:15 发布

PyTechShare

最新推荐文章于 2023-11-25 17:26:15 发布

阅读量902

点赞数

分类专栏： Python教程-基础文章标签：算法学习线性回归

本文链接：https://blog.csdn.net/qq_33578950/article/details/129911637

版权

Python教程-基础专栏收录该内容

47 篇文章 7 订阅

订阅专栏

在这篇文章中，我们将探讨监督学习算法的基本概念，重点介绍线性回归、逻辑回归和支持向量机（SVM）等几种常见的监督学习算法。我们将分别阐述它们的基本原理，并通过实际案例展示如何应用这些算法。

1. 线性回归

线性回归（Linear Regression）是一种简单的监督学习算法，主要用于解决回归问题。线性回归的基本原理是建立一个线性模型，通过最小化预测值与实际值之间的均方误差（Mean Squared Error，MSE）来确定模型参数。线性回归的目标是寻找一条最佳拟合直线，使得数据点到直线的距离之和最小。在数学表示上，线性回归可以表示为：
$y = w * X + b$
其中，y 是因变量（目标变量），X 是自变量（特征），w 是权重（系数），b 是偏置（截距）。

下面是一个使用 Python 和 scikit-learn 库实现的简单线性回归示例：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 创建一个简单的数据集
X = np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

# 划分数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建线性回归模型
lr = LinearRegression()

# 训练模型
lr.fit(X_train, y_train)

# 预测
y_pred = lr.predict(X_test)

# 计算均方误差
mse = mean_squared_error(y_test, y_pred)
print("均方误差：", mse)

# 输出模型参数
print("权重：", lr.coef_)
print("截距：", lr.intercept_)

# 绘制拟合直线
plt.scatter(X, y)
plt.plot(X_test, y_pred, color='red')
plt.xlabel('X')
plt.ylabel('y')
plt.title('线性回归示例')
plt.show()

在这个示例中，我们首先生成了一个简单的数据集，并将其分为训练集和测试集。然后，我们创建一个线性回归模型，并使用训练集对其进行训练。接着，我们使用测试集进行预测，并计算预测值与实际值之间的均方误差。最后，我们输出模型参数，并绘制拟合直线。

2. 逻辑回归

接下来，我们来详细介绍逻辑回归（Logistic Regression）的原理。逻辑回归是一种广泛应用于二分类问题的线性模型，它通过概率的形式预测某一样本属于某个类别的概率。逻辑回归的核心是逻辑函数（logistic function），通常使用 Sigmoid 函数表示。Sigmoid 函数将线性回归的结果映射到 [0,1] 之间的概率值，其形式为：

$\frac{1}{1 + e^{-z}}$

其中， $z = w^T x + b$ 表示线性模型的输出， $w$ 和 $b$ 是模型的权重和偏置。

逻辑回归的训练过程是基于最大似然估计（Maximum Likelihood Estimation，简称 MLE）进行的。我们需要最大化似然函数，从而找到最佳的模型参数。为了解决这个优化问题，我们可以使用梯度下降（Gradient Descent）等优化算法。

下面是一个使用 Python 和 scikit-learn 库实现的简单逻辑回归示例：

import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 创建一个简单的二分类数据集
X = np.random.randn(200, 2)
y = (X[:, 0] + X[:, 1] > 0).astype(int)

# 划分数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建逻辑回归模型
log_reg = LogisticRegression()

# 训练模型
log_reg.fit(X_train, y_train)

# 预测
y_pred = log_reg.predict(X_test)

# 计算准确率
acc = accuracy_score(y_test, y_pred)
print("准确率：", acc)

# 输出模型参数
print("权重：", log_reg.coef_)
print("截距：", log_reg.intercept_)

在这个示例中，我们首先生成了一个简单的二分类数据集，并将其分为训练集和测试集。然后，我们创建一个逻辑回归模型，并使用训练集对其进行训练。接着，我们使用测试集进行预测，并计算预测值与实际值之间的准确率。最后，我们输出模型参数。

3. 支持向量机（SVM）

在本节中，我们将讨论支持向量机（Support Vector Machine，简称 SVM）的原理。支持向量机是一种广泛用于分类和回归问题的监督学习算法。在二分类问题中，SVM 的目标是找到一个超平面（决策边界），使得两个类别之间的间隔最大化。这个间隔被称为最大间隔（maximum margin），而支持向量则是距离超平面最近的那些点。

SVM 的核心思想是通过对数据进行变换，使得原本线性不可分的数据变得线性可分。这种变换是通过核函数（kernel function）实现的。常见的核函数有线性核、多项式核、径向基函数（RBF）核等。当数据线性可分时，我们可以使用线性核；当数据线性不可分时，我们可以使用多项式核或 RBF 核等非线性核函数。

下面是一个使用 Python 和 scikit-learn 库实现的简单 SVM 示例：

import numpy as np
from sklearn import datasets
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载鸢尾花数据集
iris = datasets.load_iris()
X = iris.data[:, :2]  # 只取前两个特征
y = iris.target

# 划分数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建 SVM 模型，使用 RBF 核
svm = SVC(kernel='rbf', C=1, gamma=0.5)

# 训练模型
svm.fit(X_train, y_train)

# 预测
y_pred = svm.predict(X_test)

# 计算准确率
acc = accuracy_score(y_test, y_pred)
print("准确率：", acc)

在这个示例中，我们首先加载了鸢尾花数据集，并将其分为训练集和测试集。然后，我们创建了一个使用 RBF 核的 SVM 模型，并使用训练集对其进行训练。接着，我们使用测试集进行预测，并计算预测值与实际值之间的准确率。

SVM 是一种强大且灵活的机器学习算法，适用于各种场景。在实际应用中，我们需要通过调整参数，如核函数、惩罚参数 C 等，来优化模型的性能。

总结

在本文中，我们简要介绍了线性回归、逻辑回归和支持向量机等几种常见的监督学习算法。通过这些算法，我们可以解决实际生活中的许多预测和分类问题。这些算法都具有较强的解释性和易于实现的特点，成为了数据分析和机器学习领域的基本工具。

参考文献：

James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning. Springer.
Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
Cortes, C., & Vapnik, V. (1995). Support-vector networks. Machine Learning, 20(3), 273-297.

感谢您的关注！如果您觉得本文对您有帮助，请关注我们的账号，为我们点赞、打赏，我们将持续为您带来更多有价值的内容！

PyTechShare

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
监督学习算法概览：线性回归、逻辑回归、SVM等

在这篇文章中，我们将探讨监督学习算法的基本概念，重点介绍线性回归、逻辑回归和支持向量机（SVM）等几种常见的监督学习算法。我们将分别阐述它们的基本原理，并通过实际案例展示如何应用这些算法。
复制链接

扫一扫