【Python】 逻辑回归:从训练到预测的完整案例


我把我唱给你听
把你纯真无邪的笑容给我吧
我们应该有快乐的
幸福的晴朗的时光
我把我唱给你听
用我炙热的感情感动你好吗
岁月是值得怀念的留恋的
害羞的红色脸庞
谁能够代替你呀
趁年轻尽情的爱吧
最最亲爱的人啊
路途遥远我们在一起吧
                     🎵 叶蓓《想把我唱给你听》


逻辑回归是监督学习中常用的一种分类算法,尤其擅长于二分类问题。在本文中,我们将通过一个具体的案例,展示如何使用逻辑回归进行模型训练,并在一个新的数据集上进行预测验证。

1. 案例介绍

假设我们的任务是根据病人的体检数据来预测其是否有患糖尿病的风险。我们将使用公开的Pima印第安人糖尿病数据集来训练我们的模型。这个数据集包含了病人的多种生理健康指标,如:怀孕次数、胰岛素水平、体重指数(BMI)、年龄等。

2. 数据预处理

在开始模型训练前,首先需要对数据进行预处理:

数据清洗:检查并处理数据中的缺失值或异常值。
特征选择:选择对预测糖尿病有显著影响的特征。
数据分割:将数据集分为训练集和测试集,比如使用70%的数据进行训练,30%的数据用于测试。

3. 模型训练

使用Python的scikit-learn库来进行逻辑回归模型的训练:

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# 加载数据
data = pd.read_csv('pima_indians_diabetes.csv')
X = data.drop('Outcome', axis=1)
y = data['Outcome']

# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建逻辑回归模型
model = LogisticRegression()

# 训练模型
model.fit(X_train, y_train)

# 预测测试集
predictions = model.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, predictions)
print(f"Accuracy: {accuracy:.2f}")

4. 新数据集上的预测验证

为了进一步验证模型的泛化能力,我们可以在另一个相关的新数据集上进行测试。假设这个新数据集来自另一地区的病人数据,具有相同的特征结构。

# 加载新的数据集
new_data = pd.read_csv('new_diabetes_data.csv')
X_new = new_data.drop('Outcome', axis=1)
y_new = new_data['Outcome']

# 使用已训练的模型进行预测
new_predictions = model.predict(X_new)

# 计算新数据集的准确率
new_accuracy = accuracy_score(y_new, new_predictions)
print(f"New Dataset Accuracy: {new_accuracy:.2f}")

5. 结论

通过上述案例,我们可以看到逻辑回归不仅能有效处理二分类问题,而且操作简单,易于实现。同时,通过在不同的数据集上进行预测验证,我们能够评估模型的泛化能力和实用性。逻辑回归模型特别适用于那些特征与结果之间具有明显线性关系的场景。

总结来说,逻辑回归是一种强大而灵活的工具,能够帮助研究者和开发者解决实际问题,尤其在医学、金融等领域的应用尤为广泛。希望本文能够帮助你理解和运用逻辑回归,为你的数据分析项目提供支持。

  • 11
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
好的,下面是一个简单的逻辑回归分类的 Python 实例。 首先,我们需要导入必要的库和数据集。在这个例子中,我们使用了 scikit-learn 库中的鸢尾花数据集。 ```python from sklearn import datasets import numpy as np # 导入鸢尾花数据集 iris = datasets.load_iris() # 只使用前两个特征:花萼长度和花萼宽度 X = iris.data[:, :2] y = (iris.target != 0) * 1 ``` 接下来,我们将数据集拆分为训练集和测试集。 ```python # 将数据集拆分为训练集和测试集 train_X, train_y = X[:80], y[:80] test_X, test_y = X[80:], y[80:] ``` 然后,我们可以使用 scikit-learn 库中的 LogisticRegression 类来建立逻辑回归模型。 ```python from sklearn.linear_model import LogisticRegression # 创建一个逻辑回归模型 clf = LogisticRegression() # 在训练集上拟合模型 clf.fit(train_X, train_y) ``` 接着,我们可以使用训练好的模型来进行预测。 ```python # 在测试集上进行预测 pred_y = clf.predict(test_X) ``` 最后,我们可以使用 scikit-learn 库中的 metrics 模块来评估模型的性能。 ```python from sklearn import metrics # 计算模型的准确率、精度和召回率 print("Accuracy:", metrics.accuracy_score(test_y, pred_y)) print("Precision:", metrics.precision_score(test_y, pred_y)) print("Recall:", metrics.recall_score(test_y, pred_y)) ``` 完整代码如下: ```python from sklearn import datasets from sklearn.linear_model import LogisticRegression from sklearn import metrics import numpy as np # 导入鸢尾花数据集 iris = datasets.load_iris() # 只使用前两个特征:花萼长度和花萼宽度 X = iris.data[:, :2] y = (iris.target != 0) * 1 # 将数据集拆分为训练集和测试集 train_X, train_y = X[:80], y[:80] test_X, test_y = X[80:], y[80:] # 创建一个逻辑回归模型 clf = LogisticRegression() # 在训练集上拟合模型 clf.fit(train_X, train_y) # 在测试集上进行预测 pred_y = clf.predict(test_X) # 计算模型的准确率、精度和召回率 print("Accuracy:", metrics.accuracy_score(test_y, pred_y)) print("Precision:", metrics.precision_score(test_y, pred_y)) print("Recall:", metrics.recall_score(test_y, pred_y)) ``` 这就是一个简单的逻辑回归分类的 Python 实例。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值