python画logistic拟合曲线_Python sklearn模板实现Logistic回归算法

本文通过实战展示了如何使用 Python 的 sklearn 库实现 Logistic 回归算法,以预测 Pima 印第安人糖尿病数据集的患者状况。文章详细介绍了数据导入、特征与目标分割、训练集与测试集划分、模型训练、评估模型性能以及 ROC 曲线的绘制和 AUC 计算,旨在解释 Logistic 回归在二分类问题中的应用。
摘要由CSDN通过智能技术生成

在掌握 Logistic 回归的基本原理之后,下面我们通过实战来感受一下这个模型。由于模型的求解过程(如梯度下降法、牛顿法)和正则化流程都被封装在机器学习框架(如 sklearn)之中,所以我们无须为这些底层优化算法费心,这就是利用框架的便利所在。

前面关于 Logistic 回归的理论推导,主要是基于二分类的。下面我们就使用 sklearn 进行二分类的实战。实战使用的数据集是皮马印第安人糖尿病数据集(Pima Indians Diabetes Data Set),

该数据集中包括 442 个患者的生理数据及一年以后的病情发展情况数据。数据集中的特征包括: Pregnancies(怀孕次数)、Glucose(葡萄糖,单位mmol/L)、BloodPressure(血压,单位 mm Hg)、SkinThickness(皮层厚度,单位 mm)、Insulin(胰岛素,餐后2小时血清胰岛素,单位 mu U / ml)、BMI(体重指数,计算公式为(体重/身高)2)、Diabetes Pedigree Function(糖尿病谱系功能)、Age(年龄)。

我们的要预测的目标是,一年后该患者还有没有糖尿病,有(标识为 1)或者没有(标识为 0)显然是一个分类问题。由于用于训练的数据集略有不同,所以我们并不能直接使用 sklearn 提供的内置数据集。比较便捷的方法是,在 Kaggle(一个数据竞赛网站)上下载预处理好的数据集。为了演示方便,我们还是用 Jupyter 来分开解

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值