原文:https://www.kaggle.com/benhamner/d/uciml/iris/python-data-visualizations
See Kaggle Datasets for other datasets to try visualizing. The World Food Facts data is an especially rich one for visualization.
比较常用的图表有:
- 查看目标变量的分布。当分布不平衡时,根据评分标准和具体模型的使用不同,可能会严重影响性能。
-iris[“Species”].value_counts() - 对 Numerical Variable,可以用 Box Plot 来直观地查看它的分布。
-sns.boxplot(x=”Species”, y=”PetalLengthCm”, data=iris) - 对于坐标类数据,可以用 Scatter Plot 来查看它们的分布趋势和是否有离群点的存在。
-iris.plot(kind=”scatter”, x=”SepalLengthCm”, y=”SepalWidthCm”)
-sns.jointplot(x=”SepalLengthCm”, y=”SepalWidthCm”, data=iris, size=5) - 对于分类问题,将数据根据 Label 的不同着不同的颜色绘制出来,这对 Feature 的构造很有帮助。
-sns.FacetGrid(iris,hue=”Species”,size=5).map(plt.scatter,”SepalLengthCm”,”SepalWidthCm”).add_legend() - 绘制变量之间两两的分布和相关度图表。
-sns.pairplot(iris, hue=”Species”, size=3)
-sns.pairplot(iris, hue=”Species”, size=3, diag_kind=”kde”)
详细例子说明
# coding=utf-8
import pandas as pd
from sklearn.datasets import load_iris
# 载入seaborn,因为载入时会有警告出现,因此先载入warnings,忽略警告。
import warnings
warnings.filterwarnings("ignore")
import seaborn as sns
import matplotlib.pyplot as plt
sns.set(style="white", color_codes=True)
iris = pd.DataFrame(load_iris().data)
iris.columns = ['SepalLengthCm','SepalWidthCm',