数据处理和分析之分类算法：逻辑回归(LogisticRegression)：使用Python进行逻辑回归分析

kkchenkx

于 2024-10-01 11:45:00 发布

阅读量492

点赞数 4

分类专栏：数据挖掘文章标签：分类逻辑回归 python

本文链接：https://blog.csdn.net/2401_87715305/article/details/142667102

版权

数据挖掘专栏收录该内容

71 篇文章 0 订阅

订阅专栏

数据处理和分析之分类算法：逻辑回归(LogisticRegression)：使用Python进行逻辑回归分析

在这里插入图片描述

数据处理和分析之分类算法：逻辑回归 (Logistic Regression)

逻辑回归基础理论

逻辑回归算法的原理

逻辑回归(Logistic Regression)是一种用于解决分类问题的统计学方法，尤其适用于二分类问题。尽管其名称中包含“回归”，但实际上它是一种分类算法。逻辑回归的核心在于使用Sigmoid函数将线性回归的输出转换为概率值，从而实现对事件发生的可能性进行预测。

线性回归与逻辑回归的区别

线性回归用于预测连续值，而逻辑回归用于预测离散值，即分类。逻辑回归通过Sigmoid函数将线性模型的输出映射到[0, 1]区间，代表事件发生的概率。

Sigmoid函数与概率预测

Sigmoid函数，也称为Logistic函数，其数学表达式为：

$\sigma(z) = \frac{1}{1 + e^{-z}}$

其中， $z$ 是线性模型的输出， $\sigma(z)$ 是经过Sigmoid函数转换后的概率值。Sigmoid函数的图形是一个S形曲线，当 $z$ 为0时， $\sigma(z) = 0.5$ ；当 $z$ 趋向于正无穷时， $\sigma(z)$ 趋向于1；当 $z$ 趋向于负无穷时， $\sigma(z)$ 趋向于0。

示例代码

import numpy as np
import matplotlib.pyplot as plt

# 定义Sigmoid函数
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

# 生成数据点
z = np.linspace(-10, 10, 100)
y = sigmoid(z)

# 绘制Sigmoid函数图形
plt.plot(z, y)
plt.title('Sigmoid函数')
plt.xlabel('z')
plt.ylabel('σ(z)')
plt.grid(True)
plt.show()

最大似然估计与梯度下降法

逻辑回归的参数估计通常采用最大似然估计(Maximum Likelihood Estimation, MLE)。最大似然估计的目标是找到一组参数，使得观察到的数据出现的概率最大。在逻辑回归中，这通常转化为最小化损失函数，即对数损失(Log Loss)。

梯度下降法

梯度下降法是一种迭代优化算法，用于最小化损失函数。在每一步迭代中，算法会沿着损失函数梯度的反方向更新参数，直到找到损失函数的最小值点。

示例代码

# 假设数据集
X = np.array([[1, 2], [1, 3], [1, 4], [1, 5]])
y = np.array([0, 0, 1, 1])

# 初始化参数
theta = np.zeros(X.shape[1])

# 定义损失函数
def log_loss(theta, X, y):
    z = np.dot(X, theta)
    h = sigmoid(z)
    epsilon = 1e-5
    return -np.mean(y * np.log(h + epsilon) + (1 - y) * np.log(1 - h + epsilon))

# 定义梯度下降函数
def gradient_descent(theta, X, y, alpha, num_iters):
    m = len(y)
    for i in range(num_iters):
        z = np.dot(X, theta)
        h = sigmoid(z)
        gradient = np.dot(X.T, (h - y)) / m
        theta -= alpha * gradient
    return theta

# 设置学习率和迭代次数
alpha = 0.01
num_iters = 1000

# 运行梯度下降
theta = gradient_descent(theta, X, y, alpha, num_iters)

# 输出最终参数
print('最终参数:', theta)

在上述代码中，我们首先定义了数据集X和标签y。然后，初始化参数theta，并定义了损失函数log_loss和梯度下降函数gradient_descent。通过设置学习率alpha和迭代次数num_iters，我们运行梯度下降算法来更新参数，最终输出了经过训练的参数值。

逻辑回归通过Sigmoid函数和最大似然估计结合梯度下降法，能够有效地处理分类问题，特别是在二分类问题中表现突出。通过上述理论和代码示例，我们对逻辑回归有了更深入的理解和实践能力。

数据预处理与分析

数据清洗与特征选择

数据清洗是数据预处理的第一步，主要目的是去除数据集中的噪声、不一致性和缺失值，确保数据的质量。特征选择则是从原始数据中挑选出对模型预测最有价值的特征，减少模型的复杂度，提高预测的准确性。

数据清洗

数据清洗包括：

处理缺失值：可以使用填充、删除或预测等方法。
去除噪声：通过统计方法或机器学习模型识别并去除异常值。
一致性检查：确保数据格式和值的一致性。

示例：处理缺失值

import pandas as pd

# 创建一个包含缺失值的数据框
data = {'Age': [25, 30, None, 35, 40],
        'Income': [50000, 60000, 70000, None, 80000]}
df = pd.DataFrame(data)

# 使用平均值填充缺失值
df['Age'].fillna(df['Age'].mean(), inplace=True)
df['Income'].fillna(df['Income'].mean(), inplace=True)

# 打印处理后的数据框
print(df)

特征选择

特征选择方法包括：

基于模型的特征选择：如使用逻辑回归的系数大小。
基于统计的特征选择：如卡方检验、ANOVA等。
基于过滤的特征选择：如相关系数、互信息等。

示例：基于相关系数的特征选择

import pandas as pd
import numpy as np

# 创建一个数据框
data = {'Feature1': np.random.randn(100),
        'Feature2': np.random.randn(100),
        'Target': np.random.randint(0, 2, 100)}
df = pd.DataFrame(data)

# 计算特征与目标变量的相关系数
correlation = df.corr()['Target']

# 选择相关系数大于0.5的特征
selected_features = correlation[abs(correlation) > 0.5].index

# 打印选择的特征
print(selected_features)

数据标准化与归一化

数据标准化和归一化是将数据转换为统一尺度的过程，这对于逻辑回归等算法的性能至关重要。

数据标准化

数据标准化（Z-score标准化）将数据转换为均值为0，标准差为1的分布。

示例：数据标准化

from sklearn.preprocessing import StandardScaler

# 创建一个数据集
data = {'Feature1': [1, 2, 3, 4, 5],
        'Feature2': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)

# 初始化标准化器
scaler = StandardScaler()

# 拟合并转换数据
df_scaled = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)

# 打印标准化后的数据
print(df_scaled)

数据归一化

数据归一化将数据转换为0到1之间的范围。

示例：数据归一化

from sklearn.preprocessing import MinMaxScaler

# 使用之前的data数据集
df = pd.DataFrame(data)

# 初始化归一化器
scaler = MinMaxScaler()

# 拟合并转换数据
df_normalized = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)

# 打印归一化后的数据
print(df_normalized)

数据集的划分：训练集与测试集

将数据集划分为训练集和测试集是评估模型性能的关键步骤。训练集用于训练模型，测试集用于评估模型的泛化能力。

划分数据集

通常，数据集会被划分为70%的训练集和30%的测试集，但这个比例可以根据具体情况进行调整。

示例：使用Scikit-Learn划分数据集

from sklearn.model_selection import train_test_split

# 使用之前的df_normalized数据集
X = df_normalized.drop('Target', axis=1)
y = df_normalized['Target']

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 打印训练集和测试集的形状
print("X_train shape:", X_train.shape)
print("X_test shape:", X_test.shape)

通过以上步骤，我们为逻辑回归模型准备了干净、标准化的数据集，并将其划分为训练集和测试集，为后续的模型训练和评估奠定了基础。

使用Python实现逻辑回归

Python环境搭建与库导入

在开始逻辑回归的实现之前，首先需要确保你的Python环境已经搭建好，并且导入了必要的库。逻辑回归是一种广泛使用的统计学方法，用于预测事件发生的概率，特别适用于二分类问题。

环境搭建

确保你已经安装了Python，推荐使用Python 3.6或更高版本。此外，你还需要安装以下Python库：

numpy：用于数值计算。
pandas：用于数据处理和分析。
scikit-learn：用于机器学习算法的实现。
matplotlib：用于数据可视化。

库导入

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix
import matplotlib.pyplot as plt

数据加载与预处理

数据预处理是机器学习中非常关键的一步，它包括数据清洗、特征选择、数据转换等步骤，确保数据适合模型训练。

数据加载

假设我们有一个CSV文件data.csv，其中包含了一些特征和一个二分类的目标变量。

# 加载数据
data = pd.read_csv('data.csv')

数据预处理

数据清洗

# 检查并处理缺失值
data.isnull().sum()
data.fillna(data.mean(), inplace=True)  # 使用平均值填充缺失值

特征选择

# 选择特征和目标变量
X = data[['Feature1', 'Feature2', 'Feature3']]
y = data['Target']

数据转换

# 将分类变量转换为数值变量
data['CategoricalFeature'] = data['CategoricalFeature'].map({'A': 0, 'B': 1})

数据分割

# 将数据分割为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

模型训练与参数优化

模型训练

使用scikit-learn中的LogisticRegression类来训练模型。

# 创建逻辑回归模型实例
model = LogisticRegression()

# 训练模型
model.fit(X_train, y_train)

参数优化

逻辑回归模型可以通过调整参数来优化，例如C参数控制正则化强度。

# 创建逻辑回归模型实例，调整C参数
model = LogisticRegression(C=1.0)

# 训练模型
model.fit(X_train, y_train)

模型评估

评估模型的性能，通常使用准确率和混淆矩阵。

# 预测测试集
y_pred = model.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy}')

# 计算混淆矩阵
cm = confusion_matrix(y_test, y_pred)
print(f'Confusion Matrix:\n{cm}')

可视化结果

使用matplotlib来可视化逻辑回归的决策边界。

# 假设只有两个特征
plt.scatter(X_test['Feature1'], X_test['Feature2'], c=y_test, s=40, cmap=plt.cm.Spectral)
h = .02  # 网格步长
x_min, x_max = X_test['Feature1'].min() - .5, X_test['Feature1'].max() + .5
y_min, y_max = X_test['Feature2'].min() - .5, X_test['Feature2'].max() + .5
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
plt.contourf(xx, yy, Z, cmap=plt.cm.Spectral, alpha=0.8)
plt.show()

通过以上步骤，你可以在Python中实现逻辑回归模型，对数据进行预处理，训练模型，并评估其性能。逻辑回归不仅适用于二分类问题，通过调整参数，也可以处理多分类问题。在实际应用中，可能还需要进行更复杂的特征工程和模型调优，以提高模型的预测能力。

模型评估与预测

混淆矩阵与分类报告

混淆矩阵是评估分类模型性能的重要工具，它以表格形式显示了模型预测结果与实际结果的对比。对于二分类问题，混淆矩阵通常包含四个关键值：真正例（True Positive, TP）、真反例（True Negative, TN）、假正例（False Positive, FP）和假反例（False Negative, FN）。

示例代码

假设我们有一个逻辑回归模型，用于预测肿瘤是否为恶性（1）或良性（0）。

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, classification_report

# 加载数据集
data = load_breast_cancer()
X = data.data
y = data.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建逻辑回归模型并训练
model = LogisticRegression()
model.fit(X_train, y_train)

# 预测测试集
y_pred = model.predict(X_test)

# 计算混淆矩阵
cm = confusion_matrix(y_test, y_pred)
print("混淆矩阵:")
print(cm)

# 输出分类报告
cr = classification_report(y_test, y_pred)
print("分类报告:")
print(cr)

结果解释

混淆矩阵可能输出如下：

[[91  5]
 [ 7 72]]

第一行表示实际为良性（0）的样本中，91个被正确预测为良性，5个被错误预测为恶性。
第二行表示实际为恶性（1）的样本中，7个被错误预测为良性，72个被正确预测为恶性。

分类报告可能输出如下：

              precision    recall  f1-score   support

           0       0.93      0.95      0.94       96
           1       0.93      0.91      0.92       79

    accuracy                           0.93      175
   macro avg       0.93      0.93      0.93      175
weighted avg       0.93      0.93      0.93      175

precision（精确率）：模型预测为正类的样本中，实际为正类的比例。
recall（召回率）：实际为正类的样本中，被模型正确预测为正类的比例。
f1-score：精确率和召回率的调和平均数，用于综合评估模型性能。
support：每个类别的样本数量。

ROC曲线与AUC值

ROC曲线（Receiver Operating Characteristic curve）用于评估分类模型在不同阈值下的性能，它以假正例率（False Positive Rate, FPR）为横轴，真正例率（True Positive Rate, TPR）为纵轴绘制。AUC值（Area Under the Curve）是ROC曲线下方的面积，AUC值越接近1，模型性能越好。

示例代码

使用上述逻辑回归模型，我们可以绘制ROC曲线并计算AUC值。

from sklearn.metrics import roc_curve, roc_auc_score
import matplotlib.pyplot as plt

# 计算预测概率
y_scores = model.predict_proba(X_test)[:, 1]

# 计算ROC曲线
fpr, tpr, thresholds = roc_curve(y_test, y_scores)

# 计算AUC值
auc = roc_auc_score(y_test, y_scores)
print("AUC值:", auc)

# 绘制ROC曲线
plt.figure()
plt.plot(fpr, tpr, label='ROC curve (area = %0.2f)' % auc)
plt.plot([0, 1], [0, 1], 'k--')  # 随机猜测线
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic')
plt.legend(loc="lower right")
plt.show()

结果解释

假设AUC值为0.98，这表示模型在区分恶性与良性肿瘤时具有很高的准确性。ROC曲线越靠近左上角，模型性能越好。

模型预测与结果解释

逻辑回归模型可以输出预测结果，包括类别预测和预测概率。预测概率可以用于理解模型对某个样本的分类信心程度。

示例代码

使用逻辑回归模型预测测试集中的一个样本，并解释结果。

# 预测一个样本
sample = X_test[0].reshape(1, -1)
y_pred = model.predict(sample)
y_prob = model.predict_proba(sample)

# 输出预测结果和概率
print("预测类别:", y_pred)
print("预测概率:", y_prob)

结果解释

假设输出为：

预测类别: [1]
预测概率: [[0.12 0.88]]

这表示模型预测该样本为恶性肿瘤（类别1），并且预测为恶性肿瘤的概率为88%，表明模型对此预测有较高的信心。

以上示例展示了如何使用Python的scikit-learn库进行逻辑回归模型的评估与预测，包括混淆矩阵、分类报告、ROC曲线与AUC值的计算，以及预测结果的解释。通过这些评估方法，我们可以全面了解模型的性能，并根据需要调整模型参数或特征选择，以优化分类效果。

逻辑回归的高级应用

正则化技术：L1与L2正则化

正则化技术是逻辑回归中用于防止过拟合的重要手段。在逻辑回归模型中，正则化通过在损失函数中添加一个惩罚项来限制模型的复杂度，从而提高模型的泛化能力。L1和L2正则化是两种最常见的正则化方法。

L1正则化

L1正则化，也称为Lasso正则化，通过添加权重绝对值的和作为惩罚项来最小化损失函数。这有助于产生稀疏的模型，即许多权重被设置为零，从而实现特征选择。

示例代码

from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 加载数据
data = load_iris()
X = data.data
y = (data.target == 0).astype(int)  # 将问题简化为二分类

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 使用L1正则化
model = LogisticRegression(penalty='l1', solver='liblinear')
model.fit(X_train, y_train)

# 输出非零权重的特征
non_zero_features = [data.feature_names[i] for i in range(len(model.coef_[0])) if model.coef_[0][i] != 0]
print("非零权重特征:", non_zero_features)

L2正则化

L2正则化，也称为Ridge正则化，通过添加权重平方的和作为惩罚项来最小化损失函数。与L1正则化不同，L2正则化不会将权重设置为零，而是使它们更小，从而减少模型的复杂度。

示例代码

# 使用L2正则化
model = LogisticRegression(penalty='l2', solver='lbfgs')
model.fit(X_train, y_train)

# 输出模型的权重
print("模型权重:", model.coef_)

多分类问题：多项逻辑回归

逻辑回归本质上是一个二分类模型，但通过使用多项逻辑回归（Multinomial Logistic Regression），我们可以将其扩展到多分类问题。多项逻辑回归使用softmax函数来预测多个类别的概率。

示例代码

# 加载数据
data = load_iris()
X = data.data
y = data.target  # 多分类问题

# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 使用多项逻辑回归
model = LogisticRegression(multi_class='multinomial', solver='lbfgs')
model.fit(X_train, y_train)

# 预测测试集
predictions = model.predict(X_test)
print("预测结果:", predictions)

特征工程与模型调优

特征工程是数据预处理的关键步骤，它包括特征选择、特征创建和特征转换。模型调优则涉及调整模型参数以优化模型性能。

特征选择

特征选择可以通过统计测试、相关性分析或使用模型的特征重要性来完成。

示例代码

from sklearn.feature_selection import SelectKBest, f_classif

# 使用ANOVA F值进行特征选择
selector = SelectKBest(f_classif, k=2)
X_new = selector.fit_transform(X_train, y_train)
print("选择后的特征数量:", X_new.shape[1])

模型调优

使用网格搜索或随机搜索来调整模型参数，如正则化强度和类型。

示例代码

from sklearn.model_selection import GridSearchCV

# 定义参数网格
param_grid = {'C': [0.001, 0.01, 0.1, 1, 10], 'penalty': ['l1', 'l2']}

# 创建网格搜索对象
grid_search = GridSearchCV(LogisticRegression(solver='liblinear'), param_grid, cv=5)
grid_search.fit(X_train, y_train)

# 输出最佳参数
print("最佳参数:", grid_search.best_params_)