- 频数分析
a. 定性分析:柱状图、饼形图
i. 柱状图:柱的高度代表某种类型的频数
ii. 饼状图:面积代表某种类型的频数
b. 定量分析:直方图、分布曲线
i. 直方图:将定量数据划分为若干连续区间,在这些连续的区间上绘制柱(类似柱状图)
ii. 分布曲线:对应数据的分布函数 - 关系分析:散点图
a. 散点图:分别以自变量和因变量作为横纵坐标,当自变量与因变量线性相关时,在散点图中,点近似分布在一条直线上 - 探索分析:箱型图
a. 箱型图:了解数据的中心位置,发散程度以及偏差程度
i. Q2所指的红线为中位数
ii. Q1所指的蓝框下侧为下四分位数,Q3所指的蓝框上侧为上四分位数,Q3-Q1为四分为差。四分位差也是衡量数据的发散程度的指标之一
iii. 上界线和下界线是距离中位数1.5倍四分位差的线,高于上界线或者低于下界线的数据为异常值。
一、Why’s Matplotlib
Matplotlib:风格类似于Matlab,是基于Python的绘图库,属于Python中最基础的画图工具。他提供了一整套与matlab相似的命令API,十分适合交互式绘图。
除了Matplotlib外,还有几个较常用的绘图库:
-
Seaborn
Seaborn是基于Matplotlib的高级可视化效果库,偏向于统计作图,可用于数据挖掘和机器学习中的变量特征选取。相对Matplotlib,其语法相对简单,但绘图方式较为局限。 -
Bokeh
Bokeh是基于JavaScript来实现交互可视化的,可以在WEB浏览器中实现美观的视觉效果。缺点在于:版本时常更新但有时不向下兼容、语法晦涩等。 -
ggplot
ggplot是基于R语言的ggplot2制作的python版本库,但目前Yhat已停止对该库的维护。 -
Plotly
Plotly支持Python和R,优点在于可提供WEB在线交互,配色也好看。 -
Mapbox
Mapbox是处理地理数据引擎更强的可视化工具库。
二、What’s Matplotlib
pyplot是matplotlib的一个子模块,主要为底层的面向对象的绘图库提供状态机界面。状态机隐式地自动创建数字和做标轴以实现所需的绘图。
matplotlib中所有内容都按照层次结果进行组织,顶层就是由pyplot提供的matplotlib“状态机环境”。基于这个状态机环境,我们可以创建图形。
接下来介绍matplotlib中几个重要的要素:Figure、Axes、Axis
- Figure
Figure类似于一块画板,是包裹Axes、titles、legends等组件的最外层窗口。 - Axes(子图)
Axes类似于画纸,一个Figure上可以有多张画纸,但至少有一个可以显示内容的画纸。 - Axis(轴)
通过程序来看结果:
1、生成空画板
fig=plt.figure()
fig.suptitle('No axes on thie figure')
>>>
Text(0.5,0.98,'No axes on thie figure')
<Figure size 432x288 with 0 Axes>
2、贴上画纸
fig.ax_lst=plt.subplots(2,2)
plt.show()
plt.plot(x,y,format_string) 中参数
x轴数据,y轴数据,format_string控制曲线的格式(颜色、风格以及标记)
颜色字符color
风格字符linestyle
标记字符marker
除此之外还有:
markerfacecolor 标记颜色
markersize 标记大小
#绘出四个点,并用星状表示虚线连接
plt.plot([1,2,3,6],[4,5,8,1