首先按照惯例先来认识下直方图是谁,以下是从维基百科搬运过来的直方图的定义:
在统计学中,直方图(英语:Histogram)是一种对数据分布情况的图形表示,是一种二维统计图表,它的两个坐标分别是统计样本和该样本对应的某个属性的度量,以长条图(bar)的形式具体表现。因为直方图的长度及宽度很适合用来表现数量上的变化,所以较容易解读差异小的数值。
直方图也是用条形进行标注的,而条形图和直方图犹如孪生兄弟般让很多人都傻傻分不清,那么我们就先来好好区分一下这两种图形吧:
- 条形图是用条形的长度表示各类别频数的多少,而宽度(表示类别)是固定的,没有实际的数值意义。
- 直方图是用面积表示各组频数的多少,条形的长度表示每一组的频数或频率,条形的宽度表示各组的组距,所以直方图中条形的长度和宽度都是有实际的数值意义的。
- 条形图描述分类变量,直方图描述数值变量。
- 由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列的。
单纯文字不够直观的话,我们来个图感受下:
绘制直方图
区分好了条形图和直方图,就可以安心的探索直方图了。
假设我们有一组数据,是一个学校200位同学的身高数据,如果想要知道该校学生身高的分布,那么直方图再合适不过了。
这里我用随机数生成了200个值在150到180之间的数表示身高信息:
data = np.random.randint(150,180,200)data
输出的结果:
array([162, 166, 158, 166, 165, 170, 157, 156, 164, 161, 154, 176, 166, 176, 153, 169, 164, 153, 171, 175, 171, 173, 155, 165, 168, 160, 162, 150, 151, 169, 166, 152, 174, 176, 160, 155, 158, 152, 159, 179, 179, 168, 178, 166, 174, 171, 1