手把手丨我们在UCL找到了一个糖尿病数据集，用机器学习预测糖尿病

最新推荐文章于 2024-06-25 22:41:49 发布

大数据文摘

最新推荐文章于 2024-06-25 22:41:49 发布

阅读量1.3w

点赞数 17

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dzJx2EOtaA24Adr/article/details/78992999

版权

大数据文摘作品

作者：Susan Li

编译：袁雪瑶、吴双、姜范波

根据美国疾病控制预防中心的数据，现在美国1/7的成年人患有糖尿病。但是到2050年，这个比例将会快速增长至高达1/3。我们在UCL机器学习数据库里一个糖尿病数据集，希望可以通过这一数据集，了解如何利用机器学习来帮助我们预测糖尿病，让我们开始吧！

数据集github链接：https://github.com/susanli2016/Machine-Learning-with-Python/blob/master/diabetes.csv

数据

糖尿病数据集可从UCI机器学习库中获取并下载。

特征（怀孕次数，血糖，血压，皮脂厚度，胰岛素，BMI身体质量指数，糖尿病遗传函数，年龄，结果）：

糖尿病数据集由768个数据点组成，各有9个特征：

“结果”是我们将要预测的特征，0意味着未患糖尿病，1意味着患有糖尿病。在768个数据点中，500个被标记为0,268个标记为1。

KNN算法

k-NN算法几乎可以说是机器学习中最简单的算法。建立模型只需存储训练数据集。而为了对新的数据点做出预测，该算法会在训练数据集中找到与其相距最近的数据点——也就是它的“近邻点”。

首先，让我们研究一下是否能够确认模型的复杂度和精确度之间的关系：

上图展示了训练集和测试集在模型预测准确度（y轴）和近邻点个数设置（x轴）之间的关系。如果我们仅选择一个近邻点，那么训练集的预测是绝对正确的。但是当更多的近邻点被选入作为参考时，训练集的准确度会下降，这表明了使用单一近邻会导致模型太过复杂。这里的最好方案可以从图中看出是选择9个近邻点。

图中建议我们应该选择n_neighbors=9，下面给出：

K-NN分类的准确度在训练集中为：0.79

K-NN分类的准确度在测试集中为：0.78

最低0.47元/天解锁文章

大数据文摘

关注

17
点赞
踩
157

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。