【机器学习】数据的数据表示和可视化

最新推荐文章于 2022-12-03 14:39:56 发布

老贡讲Python

最新推荐文章于 2022-12-03 14:39:56 发布

阅读量553

点赞数

分类专栏：人工智能&机器学习文章标签：机器学习人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/python4857/article/details/122515361

版权

本文介绍了机器学习中的经典数据集——鸢尾花数据集，展示了如何使用Scikit-learn加载数据，并通过直方图、散点图矩阵和3维可视化来探索和理解数据的特征分布，为后续的机器学习模型建立提供基础。

摘要由CSDN通过智能技术生成

机器学习是关于使模型适应数据。出于这个原因，我们首先展示如何表示数据以便计算机理解。

在本章的开头，我们引用了 Tom Mitchell 对机器学习的定义：“适定学习问题：一个计算机程序被称为从经验 E 中学习关于某些任务 T 和某些性能度量 P，如果它在 T 上的性能，为由 P 衡量，随着经验 E 改进。” 数据是机器学习的“原材料”。它从数据中学习。在 Mitchell 的定义中，“数据”隐藏在“体验 E”和“绩效衡量 P”这两个术语之后。如前所述，我们需要标记数据来学习和测试我们的算法。

但是，建议您在开始训练分类器之前先熟悉数据。

Numpy 提供了理想的数据结构来表示您的数据，而 Matplotlib 为可视化您的数据提供了巨大的可能性。

在下面，我们想展示如何使用 sklearn 模块中的数据来做到这一点。

虹膜数据集，机器学习的“Hello World”

你看到的第一个程序是什么？我敢打赌，这可能是一个用某种编程语言发出“Hello World”的程序。很可能我是对的。几乎所有关于编程的介绍性书籍或教程都以这样的程序开头。这种传统可以追溯到 1968 年 Brian Kernighan 和 Dennis Ritchie 合着的“C 编程语言”一书！

您将在机器学习介绍性教程中看到的第一个数据集是“Iris 数据集”的可能性同样很高。鸢尾花数据集包含来自 3 个不同物种的 150 朵鸢尾花的测量结果：

鸢尾花，
变色鸢尾，和
鸢尾花-弗吉尼亚。

鸢尾花

变色鸢尾

鸢尾花

鸢尾花数据集因其简单性而经常被使用。该数据集包含在 scikit-learn 中，但在深入研究 Iris 数据集之前，我们将查看 scikit-learn 中可用的其他数据集。

使用 Scikit-learn 加载虹膜数据

例如，scikit-learn 有一组非常简单的关于这些鸢尾花的数据。数据包括以下内容：

鸢尾花数据集中的特征：
1. 萼片长度厘米
2. 萼片宽度厘米
3. 花瓣长度厘米
4. 花瓣宽度厘米
要预测的目标类别：
1. 鸢尾花
2. 变色鸢尾
3. 鸢尾花

scikit-learn 嵌入 iris CSV 文件的副本以及帮助函数以将其加载到 numpy 数组中：

from  sklearn.datasets  import  load_iris 
iris  =  load_iris ()

结果数据集是一个 Bunch 对象：

类型（虹膜）

输出：

sklearn.utils.Bunch

最低0.47元/天解锁文章

老贡讲Python

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【机器学习】数据的数据表示和可视化

机器学习是关于使模型适应数据。出于这个原因，我们首先展示如何表示数据以便计算机理解。在本章的开头，我们引用了 Tom Mitchell 对机器学习的定义：“适定学习问题：一个计算机程序被称为从经验 E 中学习关于某些任务 T 和某些性能度量 P，如果它在 T 上的性能，为由 P 衡量，随着经验 E 改进。”数据是机器学习的“原材料”。它从数据中学习。在 Mitchell 的定义中，“数据”隐藏在“体验 E”和“绩效衡量 P”这两个术语之后。如前所述，我们需要标记数据来学习和测试我们的算法。但是...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。