鸢尾花数据集数据探索实验报告

最新推荐文章于 2024-09-26 16:30:55 发布

徐露2022112117

最新推荐文章于 2024-09-26 16:30:55 发布

阅读量145

点赞数 6

文章标签：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2302_77417175/article/details/142487264

版权

鸢尾花数据集是一个常用的机器学习数据集，它包含了三种不同鸢尾花的萼片和花瓣的长度和宽度。这个数据集通常用于分类算法的学习和评估。

以下是关于鸢尾花数据集的一个实验报告，包括数据对象和特征分析、数据统计描述、数据可视化以及相关性和相似性度量的分析。

1. 数据对象和特征

鸢尾花数据集包含了3种不同的鸢尾花（Setosa, Versicolor, Virginica），每种花有50个样本。每个样本包含4个特征：萼片长度（sepal length）、萼片宽度（sepal width）、花瓣长度（petal length）和花瓣宽度（petal width）。

2. 数据统计描述

我们可以使用Python的pandas库来查看数据的统计描述：

import pandas as pd

from sklearn.datasets import load_iris

iris = load_iris()

df = pd.DataFrame(iris.data, columns=iris.feature_names)

print(df.describe())

这段代码将输出每种特征的均值、标准差、最小值、四分位数和最大值。

3. 数据可视化

数据可视化可以帮助我们更好地理解数据。我们可以使用matplotlib库来绘制散点图，展示不同鸢尾花之间的区别：

import matplotlib.pyplot as plt

# 绘制散点图

plt.scatter(df[iris.feature_names[0]], df[iris.feature_names[1]], c=iris.target, cmap='viridis')

plt.xlabel(iris.feature_names[0])

plt.ylabel(iris.feature_names[1])

plt.title('Iris Setosa, Versicolor, Virginica')

plt.show()

这个散点图将根据萼片长度和宽度绘制不同种类的鸢尾花。

4. 相关性分析

我们可以使用Python的numpy库来计算不同特征之间的相关性：

import numpy as np

correlation_matrix = df.corr()

print(correlation_matrix)

这个相关性矩阵将显示每对特征之间的相关性程度。

5. 相似度量

为了度量样本之间的相似性，我们可以使用欧氏距离、马氏距离和曼哈顿距离。以下是一个使用这些距离度量计算样本之间相似性的例子：

from sklearn.metrics.pairwise import euclidean_distances, manhattan_distances, mahalanobis_distances

# 计算欧氏距离

euclidean_distances_matrix = euclidean_distances(df)

# 计算曼哈顿距离

manhattan_distances_matrix = manhattan_distances(df)

# 计算马氏距离

mahalanobis_distances_matrix = mahalanobis_distances(df, iris.协方差)

这些函数将返回一个矩阵，其中包含了每对样本之间的距离。我们可以使用这个来计算样本之间的相似性。

徐露2022112117

关注

6
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

徐露2022112117 CSDN认证博客专家 CSDN认证企业博客

码龄1年

4: 原创

192万+: 周排名

30万+: 总排名

747: 访问

: 等级

58: 积分

6: 粉丝

18: 获赞

0: 评论

12: 收藏

私信

关注

热门文章

最新评论

总线发展历程
CSDN-Ada助手: 这是一篇很有深度的博文，总线技术的发展历程的确展现了科技的进步对我们生活的影响。希望作者能够继续分享关于计算机科学和信息技术方面的知识，这对读者来说都是非常有价值的。除了总线技术的发展历程，也可以分享一些关于新型总线技术的未来发展趋势，比如物联网和人工智能对总线技术的影响，以及相关的硬件设计和优化技巧。期待作者继续分享更多精彩的内容！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。