用数据可视化直观理解数据--iris数据集为例

最新推荐文章于 2024-05-20 14:17:32 发布

蓁蓁尔

最新推荐文章于 2024-05-20 14:17:32 发布

阅读量1w

点赞数 2

分类专栏：机器学习相关 python相关文章标签：数据可视化

本文链接：https://blog.csdn.net/u013527419/article/details/69567347

版权

原文：https://www.kaggle.com/benhamner/d/uciml/iris/python-data-visualizations
See Kaggle Datasets for other datasets to try visualizing. The World Food Facts data is an especially rich one for visualization.

比较常用的图表有：

查看目标变量的分布。当分布不平衡时，根据评分标准和具体模型的使用不同，可能会严重影响性能。
-iris[“Species”].value_counts()
对 Numerical Variable，可以用 Box Plot 来直观地查看它的分布。
-sns.boxplot(x=”Species”, y=”PetalLengthCm”, data=iris)
对于坐标类数据，可以用 Scatter Plot 来查看它们的分布趋势和是否有离群点的存在。
-iris.plot(kind=”scatter”, x=”SepalLengthCm”, y=”SepalWidthCm”)
-sns.jointplot(x=”SepalLengthCm”, y=”SepalWidthCm”, data=iris, size=5)
对于分类问题，将数据根据 Label 的不同着不同的颜色绘制出来，这对 Feature 的构造很有帮助。
-sns.FacetGrid(iris,hue=”Species”,size=5).map(plt.scatter,”SepalLengthCm”,”SepalWidthCm”).add_legend()
绘制变量之间两两的分布和相关度图表。
-sns.pairplot(iris, hue=”Species”, size=3)
-sns.pairplot(iris, hue=”Species”, size=3, diag_kind=”kde”)

详细例子说明

# coding=utf-8
import pandas as pd
from sklearn.datasets import load_iris

# 载入seaborn,因为载入时会有警告出现，因此先载入warnings，忽略警告。
import warnings 
warnings.filterwarnings("ignore")
import seaborn as sns
import matplotlib.pyplot as plt
sns.set(style="white", color_codes=True)

iris = pd.DataFrame(load_iris().data)
iris.columns = ['SepalLengthCm','SepalWidthCm',

最低0.47元/天解锁文章

蓁蓁尔

关注

2
点赞
踩
24

收藏

觉得还不错? 一键收藏
1
评论
用数据可视化直观理解数据--iris数据集为例

原文：https://www.kaggle.com/benhamner/d/uciml/iris/python-data-visualizations See Kaggle Datasets for other datasets to try visualizing. The World Food Facts data is an especially rich one for visualiza
复制链接

扫一扫