python聚类算法中x是多维、y是一维怎么画图_基于Python的数据可视化：从一维到多维...

最新推荐文章于 2023-02-23 21:07:09 发布

孤独的李子

最新推荐文章于 2023-02-23 21:07:09 发布

阅读量1.8k

点赞数

文章标签： python聚类算法中x是多维、y是一维怎么画图

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42570484/article/details/112902723

版权

本文以鸢尾花数据集为例，详细介绍了如何使用Python库matplotlib、seaborn、pandas和sklearn进行一维、二维及多维数据的可视化，包括boxplot、kdeplot、violinplot、散点图、pairplot等多种图表，并展示了多维数据的可视化技术如Andrews曲线、平行坐标、RadViz、因子分析、主成分分析、独立成分分析和多维度量尺以及t-SNE等。

摘要由CSDN通过智能技术生成

目录

一、iris数据集介绍

二、一维数据可视化

三、二维数据可视化

四、多维数据可视化

五、参考资料

一、iris数据集介绍

iris数据集有150个观测值和5个变量，分别是sepal length、sepal width、petal length、petal width、species，其中species有3个取值：setosa、virginica、versicolor，反正就是鸾尾花的3个不同品种吧，各有50个观测值。具体见下表。

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

%matplotlib inline

sns.set(style="white", color_codes=True)

#加载iris数据集

from sklearn.datasets import load_iris

iris_data = load_iris()

iris = pd.DataFrame(iris_data['data'], columns=iris_data['feature_names'])

iris = pd.merge(iris, pd.DataFrame(iris_data['target'], columns=['species']), left_index=True, right_index=True)

labels = dict(zip([0,1,2], iris_data['target_names']))

iris['species'] = iris['species'].apply(lambda x: labels[x])

iris.head()

iris data.png

我们以iris数据集为例，演示如何使用matplotlib、seaborn、pandas、sklearn进行一维、二维及多维数据可视化，进行探索性数据分析，为后期建模提供一些思路。

二、一维数据可视化

Seaborn是Python基于matplotlib的数据可视化工具。它提供了很多高层封装的函数，帮助数据分析人员快速绘制美观的数据图形，而避免了许多额外的参数配置问题。

用boxplot画出单个特征与species的关系，可以看到不同品种的鸾尾花在petal length单个维度上已经可以较好地划分出来，尤其setosa的petal length跟另外两个品种的petal length差别不要太大好吗，一眼就把你给认出来了。

# look at an individual feature in Seaborn through a boxplot

sns.boxplot(x='species', y='petal length (cm)', data=iris)

box plot

kdeplot核密度图

# kdeplot looking at univariate relations

# creates and visualizes a kernel density estimate of the underlying feature

sns.FacetGrid(iris, hue='species',size=6) \

.map(sns.kdeplot, 'petal length (cm)') \

.add_legend()

kdeplot

violinplot琴形图：结合了箱线图与核密度估计图的特点，它表征了在一个或多个分类变量情况下，连续变量数据的分布并进行了比较，它是一种观察多个数据分布有效方法。

# A violin plot combines the benefits of the boxp

最低0.47元/天解锁文章

孤独的李子

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。