接上文
薛定谔的猫:热门matpotlib可视化图(上)zhuanlan.zhihu.com四、分配
4.1连续变量的直方图
直方图显示给定变量的频率分布。下图根据分类变量对频率条进行了分组,从而对连续变量和分类变量串联在一起有更深入的了解。
# Import Data
4.2分类变量直方图
分类变量的直方图显示该变量的频率分布。通过为条形着色,您可以将分布与代表颜色的另一个分类变量关联起来。
# Import Data
4.3密度图
密度图是可视化连续变量分布的常用工具。通过使用“ response”变量对它们进行分组,您可以检查X和Y之间的关系。以下情况仅出于代表性目的,描述城市里程的分布相对于汽缸数的变化。
# Import Data
4.4带直方图的密度曲线
带有直方图的密度曲线将两个图所传达的集体信息汇总在一起,因此您可以将它们都放在一个图中而不是两个图中。
# Import Data
4.5欢乐情节
Joy Plot允许不同组的密度曲线重叠,这是一种可视化大量组相对于彼此分布的好方法。它看起来令人赏心悦目,并且清楚地传达了正确的信息。使用joypy基于的软件包可以轻松构建它matplotlib。
# !pip install joypy
4.6分布式点图
分布点图显示了按组划分的点的单变量分布。点越暗,该区域中数据点的集中度越高。通过对中间值进行不同的着色,各组的实际位置会立即变得明显。
import
4.7箱型图
箱形图是可视化分布的一种好方法,同时牢记中位数,第25个第75个四分位数和离群值。但是,在解释方框的大小时需要小心,这可能会扭曲该组中包含的点数。因此,手动在每个框中提供观察次数可以帮助克服此缺点。
例如,左侧的前两个框具有相同大小的框,即使它们分别具有5和47个obs。因此,有必要写下该组中的观察数。
# Import Data
4.8点+盒图
点+箱形图以箱形图的形式传送类似的信息,分为组。此外,这些点还使您感觉到每个组中有多少个数据点。
# Import Data
4.9小提琴图
小提琴图是箱形图的视觉替代。小提琴的形状或面积取决于其可观察的次数。但是,小提琴图很难阅读,在专业环境中不常用。
# Import Data
4.10人口金字塔图
人口金字塔可用于显示按体积排序的组的分布。或者,它也可以用来显示人口的逐步过滤,因为它在下面用于显示有多少人通过营销渠道的每个阶段。
# Read data
4.11分类图
seaborn库提供的分类图可用于可视化2个或更多分类变量彼此之间的计数分布。
# Load Dataset
# Load Dataset
五、组成
5.1华夫饼图
waffle可以使用该pywaffle软件包创建该图表,并用于显示较大人群中各组的组成。
#! pip install pywaffle
5.2饼图
饼图是显示组组成的经典方法。但是,如今一般不建议使用它,因为馅饼部分的面积有时可能会引起误解。因此,如果要使用饼图,强烈建议明确写下饼图各部分的百分比或数字。
# Import
# Import
5.3树状图
树形图类似于饼形图,并且可以更好地完成工作,而不会误导每个组的贡献。
# pip install squarify
5.4条形图
条形图是一种基于计数或任何给定指标可视化项目的经典方法。在下面的图表中,我为每个项目使用了不同的颜色,但是您通常可能希望为所有项目选择一种颜色,除非您按组对它们进行着色。颜色名称存储在all_colors下面的代码中。您可以通过在中设置color参数来更改条形的颜色。plt.plot()
import
六、更改
6.1时间序列图
时间序列图用于可视化给定指标如何随时间变化。在这里,您可以了解1949年至1969年之间的航空客运流量如何变化。
# Import Data
6.2带有峰谷的时间序列
下面的时间序列绘制了所有的波峰和波谷,并注释了选定特殊事件的发生。
# Import Data
6.3自相关(ACF)和部分自相关(PACF)图
ACF图显示了时间序列与其自身滞后的相关性。每条垂直线(在自相关图上)代表序列与从滞后0开始的滞后之间的相关性。图中的蓝色阴影区域是显着性水平。蓝线以上的那些滞后就是巨大的滞后。
from
6.4互相关图
互相关图显示了两个时间序列之间的时滞。
import
5.5时间序列分解图
时间序列分解图显示了时间序列按趋势,季节和残差成分的分解。
from
6.6多个时间序列
您可以在同一张图表上绘制测量同一值的多个时间序列,如下所示。
# Import Data
-------------------------------------结束----------------------------------------------