python 混淆矩阵_python机器学习库-Kaggle皮马印第安人糖尿病预测分析

该项目使用Python的scikit-learn对糖尿病数据进行分析,通过逻辑回归预测模型,得出预测准确率为80.5%。相关性强的参数为glucose、insulin、BMI。后续改进可通过增加数据和特征工程提升预测精度。
摘要由CSDN通过智能技术生成

项目摘要
本项目主要使用python对各医学参数与糖尿病之间的关系进行可视化分析、描述性分析。使用scikit-learn机器学习工具进行推断性分析,对数据标准化、使用逻辑回归算法对测试集数据进行预测,最后使用混淆模型和准确率对模型进行评估。
主要结论:

  1. 数据集768人中,有268人患病,500人不患病,患病率为34.90%;
  2. 糖尿病患者的平均葡萄糖浓度、平均舒张压、平均皮褶厚度、平均血清胰岛素、平均体重指数、平均糖尿病谱系功能都比正常人高。患病者一般在27~47岁之间,怀孕次数在1~8次之间;
  3. 与糖尿病相关性较强的参数为glucose、insulin、BMI、skin_thick;
  4. 使用逻辑回归预测模型,在被预测的154名皮马印第安女性中,共124人被准确预测,预测准确率为80.5%。

图片上传后被严重压缩,如图法无法看清,请移步至CSDN论坛:https://blog.csdn.net/Gerard_mok/article/details/99778829

88d4a584d5d1798bcf0051c4b8eb81ac.png

一、数据集介绍
该数据集源至美国国家糖尿病、消化及肾脏疾病研究所。 数据集的目的是根据已有诊断信息来预测患者是否患有糖尿病。 但该数据库存在一定局限性,特别是数据集中的患者都是年龄大于等于21岁的皮马印第安女性。

CCF指定专业大数据及人工智能竞赛平台-DataFountain​www.datafountain.cn
64f7c628b42b9519a3837c3c70dd656b.png
Pima Indians Diabetes Database​www.kaggle.com
c189ac5c4861735675c73ca4dd405bab.png

数据集由若干医学预测变量和一个目标变量Outcome组成,共九个字段。 预测变量包括患者的怀孕次数,BMI,胰岛素水平,年龄等。

dec7c0d128bd78cfd1b3ecc7f03fd442.png

二、项目分析
1 提出问题
是否可以利用现有数据准确预测人是否患有糖尿病?
2 理解数据
简单查看表格内容。首先需要更改列名为更好的理解和使用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值