【Python】逻辑回归：从训练到预测的完整案例

音乐学家方大刚

于 2024-05-01 23:44:09 发布

阅读量1.2k

点赞数 11

分类专栏： Python 文章标签： python 逻辑回归人工智能

本文链接：https://blog.csdn.net/qq_35240081/article/details/138382873

版权

Python 专栏收录该内容

158 篇文章 3 订阅

订阅专栏

我把我唱给你听
把你纯真无邪的笑容给我吧
我们应该有快乐的
幸福的晴朗的时光
我把我唱给你听
用我炙热的感情感动你好吗
岁月是值得怀念的留恋的
害羞的红色脸庞
谁能够代替你呀
趁年轻尽情的爱吧
最最亲爱的人啊
路途遥远我们在一起吧
🎵 叶蓓《想把我唱给你听》

逻辑回归是监督学习中常用的一种分类算法，尤其擅长于二分类问题。在本文中，我们将通过一个具体的案例，展示如何使用逻辑回归进行模型训练，并在一个新的数据集上进行预测验证。

1. 案例介绍

假设我们的任务是根据病人的体检数据来预测其是否有患糖尿病的风险。我们将使用公开的Pima印第安人糖尿病数据集来训练我们的模型。这个数据集包含了病人的多种生理健康指标，如：怀孕次数、胰岛素水平、体重指数（BMI）、年龄等。

2. 数据预处理

在开始模型训练前，首先需要对数据进行预处理：

数据清洗：检查并处理数据中的缺失值或异常值。
特征选择：选择对预测糖尿病有显著影响的特征。
数据分割：将数据集分为训练集和测试集，比如使用70%的数据进行训练，30%的数据用于测试。

3. 模型训练

使用Python的scikit-learn库来进行逻辑回归模型的训练：

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# 加载数据
data = pd.read_csv('pima_indians_diabetes.csv')
X = data.drop('Outcome', axis=1)
y = data['Outcome']

# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建逻辑回归模型
model = LogisticRegression()

# 训练模型
model.fit(X_train, y_train)

# 预测测试集
predictions = model.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, predictions)
print(f"Accuracy: {accuracy:.2f}")

4. 新数据集上的预测验证

为了进一步验证模型的泛化能力，我们可以在另一个相关的新数据集上进行测试。假设这个新数据集来自另一地区的病人数据，具有相同的特征结构。

# 加载新的数据集
new_data = pd.read_csv('new_diabetes_data.csv')
X_new = new_data.drop('Outcome', axis=1)
y_new = new_data['Outcome']

# 使用已训练的模型进行预测
new_predictions = model.predict(X_new)

# 计算新数据集的准确率
new_accuracy = accuracy_score(y_new, new_predictions)
print(f"New Dataset Accuracy: {new_accuracy:.2f}")