1、类库
Matplotlib:功能强大的数据可视化库,但是画一些常用的图也可能需要花时间研究代码。
Seaborn:架构在 matplotlib 的基础上,但添加了一些函数或方法,使常见的统计可视化变得更便捷。
pandas:虽然这个库包含一些便捷的、基于 matplotlib 的数据可视化方法,但是它的主要功能是进行数据处理,我们也会将其视为处理数据的主要工具。
Matplotlib :
figure (Figure): 用来创建新的图表。 可以用它来初始化图表,最常用的是 “figsize” 参数设置图表大小。
xlabel 和 ylabel (Axes): 用来设置轴标签。
xticks 和 yticks (Axes): 用来设置轴刻度。
legend (Axes): 用来创建和自定义图例。一个关键参数是 "title",可以为你的图例提供描述文字,标记特征名称。"loc" 和 "ncol" 参数可以改变图例的位置和形状,因为有些时候默认的图例位置可能并不理想。
colorbar (Axes): 用来添加调色板。用 "label" 这个参数給调色板添加标签。
title (Axes): 用来设置单个坐标系图表的标题。
suptitle (Figure): 用来设置整个图表容器的标题。suptitle 和 title 主要的不同是前者是为整个图表容器(Figure 对象) 设置标题,而后者只是为单个坐标系的图表(Axes 对象)设置标题。这对于分面图表或者创建包含很多子图的图表很有用,suptitle 可以为整个图表 矩阵设置总标题。
2、数据类型
1、分类(Categorical)类型(非数值类型,又称定性类型)
(1)无序分类变量(Nominal data):没有固定顺序的纯标签文本,比如电影类型、国家等
(2)有序分类变量(Ordinal data):具有固定顺序和排名的标签文本(数值之间可以进行比较,但是不能计算),比如表示成绩的字母、比赛排名、教育程度等
2、数值(Numeric)类型(又称定量类型)
(1)定距变量(Interval data):绝对差有意义的数值型数据(可以进行加法和减法运算),比如年份、温度
(2)定比变量(Ratio data):相对差有意义的数值型数据(可以进行乘法和除法运算),比如文档的字数、重量
所有数值类型的变量还可以分为两个类型:离散型 和 连续型。
离散型 数值变量只能取某个特定集合中的一定精度的数值
连续型 数值变量可以(理论上)取得任何精度级别的数值。
连续数据是可以采用小数精度的数据类型,而离散数据则是只能计数的数据类型
3、可视化方式选择
一般来说,人们对于位置变化和长度变化最为敏感,位置变化就是类似散点图中 x/y 坐标位置的变化,长度变化就是类似条形图和直方图的条形高度变化。
同时,人们不太能感受色调变化,比如用了较多颜色的散点图(我们将在后续课程中接触到这种图表),对面积变化也不太敏感,比如饼状图,所以饼状图通常都不是最佳选择。
颜色与形状是分类变量最好的展现方式,而标志大小有助于数值型数据的表达
1、条形图 bar chart–分类变量
(1)无序:按频率高低排序
(2)有序:按照自有顺序
如果类别比较多,或者每个类别的文字描述比较长,就把竖着条形图改为横着
2、直方图 histograms–数值
#在jupyter中进行绘制
%matplotlib inline
导出可视化html时的命令
jupyter nbconvert Wine_Quality_Slide.ipynb --to slides --post serve --template output_toggle
普通的单个图表增加标题,但是中文会乱码
plt.title()
PairGrid 或 FacetGrid 等组图对象添加标题
plt.subplots_adjust(top=0.9) # 调整图表位置
g.fig.suptitle('这里添加标题');