【scikit-learn】学习Python来分类现实世界的数据

本文介绍了如何使用Python的scikit-learn库对Iris数据集进行分类,通过数据可视化、构建简单模型和交叉检验评估模型的性能,展示了机器学习中的基本分类流程。
摘要由CSDN通过智能技术生成

引入

一个机器可以根据照片来辨别鲜花的品种吗?在机器学习角度,这其实是一个分类问题,即机器根据不同品种鲜花的数据进行学习,使其可以对未标记的测试图片数据进行分类。
这一小节,我们还是从scikit-learn出发,理解基本的分类原则,多动手实践。

Iris数据集

Iris flower数据集是1936年由Sir Ronald Fisher引入的经典多维数据集,可以作为判别分析(discriminant analysis)的样本。该数据集包含Iris花的三个品种(Iris setosa, Iris virginica and Iris versicolor)各50个样本,每个样本还有4个特征参数(分别是萼片<sepals>的长宽和花瓣<petals>的长宽,以厘米为单位),Fisher利用这个数据集开发了一个线性判别模型来辨别花朵的品种。
基于Fisher的线性判别模型,该数据集成为了机器学习中各种分类技术的典型实验案例。


现在我们要解决的分类问题是,当我们看到一个新的iris花朵,我们能否根据以上测量参数成功预测新iris花朵的品种。
我们利用给定标签的数据,设计一种规则进而应用到其他样本中做预测,这是基本的监督问题(分类问题)。
由于iris数据集样本量和维度都很小,所以可以方便进行可视化和操作。

数据的可视化(visualization)

scikit-learn自带有一些经典的数据集,比如用于分类的iris和digits数据集,还有用于回归分析的boston house prices数据集。
可以通过下面的方式载入数据:

from sklearn import datasets
iris = datasets.load_iris()
digits = datasets.load_digits()

该数据集是一种字典结构,数据存储在.data成员中,输出标签存储在.target成员中。

  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值