机器学习——Logistic回归

Joshi^ ^

于 2023-12-04 21:21:29 发布

阅读量886

点赞数 18

文章标签：机器学习回归

本文链接：https://blog.csdn.net/qq_62541359/article/details/134792541

版权

本文介绍了Logistic回归的基本原理，包括其假设函数、决策边界、参数估计以及Sigmoid函数的应用。重点讲解了最优化方法如梯度上升，并说明了如何将其用于二分类问题。最后，总结了Logistic回归在实际应用中的步骤和局限性。

摘要由CSDN通过智能技术生成

一、基本原理

Logistic回归是一种常用的统计学习方法，用于解决二分类问题。它基于Logistic函数（也称Sigmoid函数）进行建模和预测。

1.假设函数：

Logistic回归的假设函数形式为： $h\theta (x)=g(\theta ^{T}*x)$ ，其中 $h\theta (x)$ 表示预测的输出结果，g(z)表示Logistic函数， $\theta$ 是模型的参数向量，x是输入样本的特征向量。Logistic函数的定义为： $g(z)=\frac{1}{1+e^{-z}}$ ，可以将其理解为将任意实数映射到[0,1]之间。

2.决策边界：

Logistic回归通过设置一个决策边界来对样本进行分类。决策边界是指 $h\theta (x)=0.5$ 时的情况，即当 $\theta ^{T}x\geqslant 0$ 时，预测结果为1类，当 $\theta ^{T}x<0$ 时，预测结果为0类。

3.模型参数估计：

Logistic回归使用最大似然估计的方法来估计模型的参数 $\theta$ 。给定训练集 $D={\left \{ (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{m},y_{m}) \right \}}$ ，其中 $x_{i}$ 是第i个样本的特征向量， $y_{i}$ 是对应的标签（0或1）。在Logistic回归中，我们希望找到一个参数向量 $\theta$ ，使得对于给定的输入样本 $x_{i}$ ，预测值 $h\theta (x_{i})$ 尽可能接近真实标签 $y_{i}$ 。具体而言，我们需要最大化似然函数： $L(\theta )=\prod [h\theta (x_{i})]^{y_{i}}*[1-h\theta (x_{i})]^{(1-y_{i})}$ ，使得样本出现的概率越大越好。

4.损失函数和优化算法：

为了方便求解，通常使用对数似然函数的负数作为损失函数来进行优化。即损失函数 $J(\theta )=\frac{-[(\sum [y*log(h\theta (x_{i}))]+(1-y)*log(1-h\theta (x_{i})))]}{m}$ 。我们可以使用梯度下降等优化算法来最小化损失函数，从而求得最优的参数 $\theta$ 。

5.生成一个Logistic函数图像：

import numpy as np
import matplotlib.pyplot as plt

def logistic_function(x):
    return 1 / (1 + np.exp(-x))

# 生成一组输入值
x = np.linspace(-10, 10, 100)

# 计算对应的输出值
y = logistic_function(x)

# 绘制图像
plt.plot(x, y)
plt.xlabel('x')
plt.ylabel('f(x)')
plt.title('Logistic Function')
plt.grid(True)
plt.show()