项目摘要
本项目主要使用python对各医学参数与糖尿病之间的关系进行可视化分析、描述性分析。使用scikit-learn机器学习工具进行推断性分析,对数据标准化、使用逻辑回归算法对测试集数据进行预测,最后使用混淆模型和准确率对模型进行评估。
主要结论:
- 数据集768人中,有268人患病,500人不患病,患病率为34.90%;
- 糖尿病患者的平均葡萄糖浓度、平均舒张压、平均皮褶厚度、平均血清胰岛素、平均体重指数、平均糖尿病谱系功能都比正常人高。患病者一般在27~47岁之间,怀孕次数在1~8次之间;
- 与糖尿病相关性较强的参数为glucose、insulin、BMI、skin_thick;
- 使用逻辑回归预测模型,在被预测的154名皮马印第安女性中,共124人被准确预测,预测准确率为80.5%。
图片上传后被严重压缩,如图法无法看清,请移步至CSDN论坛:https://blog.csdn.net/Gerard_mok/article/details/99778829
一、数据集介绍
该数据集源至美国国家糖尿病、消化及肾脏疾病研究所。 数据集的目的是根据已有诊断信息来预测患者是否患有糖尿病。 但该数据库存在一定局限性,特别是数据集中的患者都是年龄大于等于21岁的皮马印第安女性。
数据集由若干医学预测变量和一个目标变量Outcome组成,共九个字段。 预测变量包括患者的怀孕次数,BMI,胰岛素水平,年龄等。
二、项目分析
1 提出问题
是否可以利用现有数据准确预测人是否患有糖尿病?
2 理解数据
简单查看表格内容。首先需要更改列名为更好的理解和使用。