1 概述
数据可视化,从数据层面,包括以下两块内容:
a单变量的可视化:主要研究变量的自身特性
b多变量的联合可视化:主要研究变量与变量之间的相关性
其中,单变量的可视化,要根据数据的类型来分别处理:
分类变量(categorical variable)
常用的有:饼图、柱形图
数值变量(numerical variable)
常用的有:概率密度图、直方图、箱式图
2 导入数据
3 分类特征
分类特征主要看两个方面:
a有几种分类
b每种分类的数量(或者比例)
这里为了演示,用day变量,代表了星期。
mon 74tue 64wed 54thu 61fri 85sat 84sun 95Name: day, dtype: int64结果为,可以看到,数据集里这个变量的分布还算平均。
3.1 饼图
注意分类的种类不能太多,不然饼图就会被切得很细。
a pandas.Series.plot.pie
用autopct设置数字的格式。
3.2 柱状图
a pandas.Series.plot.pie
b matplotlib.pyplot.bar
c seaborn.barplot
d seaborn.countplot
用这个的好处在于,自动计算取值及其数量并可视化,节省一个步骤。函数中,可以设置order=order来指定顺序。
4 数值特征
数值特征主要看两个方面:它的取值区间,不同子区间的数量分布(或者密度分布)。
为了演示,用temp变量,代表温度。
4.1 直方图
a pandas.Series.plot.hist
b matplotlib.pyplot.hist
c seaborn.rugplot
4.2 概率密度图
a pandas.Series.plot.density
b seaborn.kdeplot
c seaborn.distplot
4.3 箱式图
a pandas.Series.plot.box
b matplotlib.pyplot.boxplot
c seaborn.boxplot
orient默认值是h(水平),也可以设为v(垂直)。