【scikit-learn】学习Python来分类现实世界的数据

最新推荐文章于 2022-01-03 23:02:32 发布

JasonDing1354

最新推荐文章于 2022-01-03 23:02:32 发布

阅读量5.8k

点赞数 2

分类专栏：【Machine Learning】文章标签：机器学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jasonding1354/article/details/42143659

版权

本文介绍了如何使用Python的scikit-learn库对Iris数据集进行分类，通过数据可视化、构建简单模型和交叉检验评估模型的性能，展示了机器学习中的基本分类流程。

摘要由CSDN通过智能技术生成

引入

一个机器可以根据照片来辨别鲜花的品种吗？在机器学习角度，这其实是一个分类问题，即机器根据不同品种鲜花的数据进行学习，使其可以对未标记的测试图片数据进行分类。
这一小节，我们还是从scikit-learn出发，理解基本的分类原则，多动手实践。

Iris数据集

Iris flower数据集是1936年由Sir Ronald Fisher引入的经典多维数据集，可以作为判别分析（discriminant analysis）的样本。该数据集包含Iris花的三个品种(Iris setosa, Iris virginica and Iris versicolor)各50个样本，每个样本还有4个特征参数（分别是萼片<sepals>的长宽和花瓣<petals>的长宽，以厘米为单位），Fisher利用这个数据集开发了一个线性判别模型来辨别花朵的品种。
基于Fisher的线性判别模型，该数据集成为了机器学习中各种分类技术的典型实验案例。

现在我们要解决的分类问题是，当我们看到一个新的iris花朵，我们能否根据以上测量参数成功预测新iris花朵的品种。
我们利用给定标签的数据，设计一种规则进而应用到其他样本中做预测，这是基本的监督问题（分类问题）。
由于iris数据集样本量和维度都很小，所以可以方便进行可视化和操作。

数据的可视化(visualization)

scikit-learn自带有一些经典的数据集，比如用于分类的iris和digits数据集，还有用于回归分析的boston house prices数据集。
可以通过下面的方式载入数据：

from sklearn import datasets
iris = datasets.load_iris()
digits = datasets.load_digits()

该数据集是一种字典结构，数据存储在.data成员中，输出标签存储在.target成员中。

最低0.47元/天解锁文章

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
【scikit-learn】学习Python来分类现实世界的数据

引入一个机器可以根据照片来辨别鲜花的品种吗？在机器学习角度，这其实是一个分类问题，即机器根据不同品种鲜花的数据进行学习，使其可以对未标记的测试图片数据进行分类。这一小节，我们还是从scikit-learn出发，理解基本的分类原则，多动手实践。Iris数据集Iris flower数据集是1936年由Sir Ronald Fisher引入的经典多维数据集，可以作为判别分析（
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。