用pandas中的parallel_coordinates可视化高维数据
可视化 pandas
1.引言
在处理数据时常常需要对数据进行可视化以便观察,但是,在笛卡尔坐标系下,超过3维的数据我们就无法可视化了,所以,我们就需要一种有效的方法来可视化高维数据.
常用的方法有Parallel Coordinates,关于这个方法的介绍可以看wikipedia页面,这里就不再重复了.
2.python解决方案
这里有一个简单的教程来熟悉pands语法:
10分钟熟悉pandas
如果对pandas的数据结构不了解,还要熟悉一下它的数据结构
Pandas 数据结构简介
材料准备齐全,就可以开始进行可视化操作了.
3. 实现过程
3.1 准备数据
首先找一个经典的4维数据集: 鸢尾花 iris数据集 wiki ,uci下载地址
数据集简要描述:
只有四个属性:
sepal length in cm
sepal width in cm
petal length in cm
petal width in cm
共三类:
Iris Setosa
Iris Versicolour
Iris Virginica
3.1.1 导入数据
由于scikit-learn已经内建了这个数据集,可以直接导入使用
fromsklearnimportdatasets
data_origin=datasets.load_iris()
data_origin是一个 python 字典, 包含了
'target_names': 标签名,'setosa' 'versicolor&#