python 混淆矩阵_python机器学习库-Kaggle皮马印第安人糖尿病预测分析

最新推荐文章于 2022-01-15 11:29:06 发布

weixin_39882948

最新推荐文章于 2022-01-15 11:29:06 发布

阅读量580

点赞数

文章标签： python 混淆矩阵

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39882948/article/details/111635377

版权

该项目使用Python的scikit-learn对糖尿病数据进行分析，通过逻辑回归预测模型，得出预测准确率为80.5%。相关性强的参数为glucose、insulin、BMI。后续改进可通过增加数据和特征工程提升预测精度。

摘要由CSDN通过智能技术生成

项目摘要
本项目主要使用python对各医学参数与糖尿病之间的关系进行可视化分析、描述性分析。使用scikit-learn机器学习工具进行推断性分析，对数据标准化、使用逻辑回归算法对测试集数据进行预测，最后使用混淆模型和准确率对模型进行评估。
主要结论：

数据集768人中，有268人患病，500人不患病，患病率为34.90%；
糖尿病患者的平均葡萄糖浓度、平均舒张压、平均皮褶厚度、平均血清胰岛素、平均体重指数、平均糖尿病谱系功能都比正常人高。患病者一般在27~47岁之间，怀孕次数在1~8次之间；
与糖尿病相关性较强的参数为glucose、insulin、BMI、skin_thick；
使用逻辑回归预测模型，在被预测的154名皮马印第安女性中，共124人被准确预测，预测准确率为80.5%。

图片上传后被严重压缩，如图法无法看清，请移步至CSDN论坛：https://blog.csdn.net/Gerard_mok/article/details/99778829

一、数据集介绍
该数据集源至美国国家糖尿病、消化及肾脏疾病研究所。数据集的目的是根据已有诊断信息来预测患者是否患有糖尿病。但该数据库存在一定局限性，特别是数据集中的患者都是年龄大于等于21岁的皮马印第安女性。

CCF指定专业大数据及人工智能竞赛平台-DataFountainwww.datafountain.cn

Pima Indians Diabetes Databasewww.kaggle.com

数据集由若干医学预测变量和一个目标变量Outcome组成，共九个字段。预测变量包括患者的怀孕次数，BMI，胰岛素水平，年龄等。

二、项目分析
1 提出问题
是否可以利用现有数据准确预测人是否患有糖尿病？
2 理解数据
简单查看表格内容。首先需要更改列名为更好的理解和使用。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。