首先,了解几个相关概念。
频数:在一组样本数据中,不同的数据出现的次数有多有少,或者说它们出现的频繁程度不同,我们称每个数据出现的次数为频数。
频率:每个数据出现的次数与样本数据总量的比值为频率。
组数:把全体样本数据分成的组的个数(当数据总量在100个以内时,常常分为5~12组)。
组距:把全体样本数据分成若干个组,每个小组在x轴上的两个左右端点的距离。
极差:全体样本数据中的最大值与最小值的差。
由以上定义,可以得到下面的关系:
频数 极差
频率 = ———————— , 组距 = ———————
样本总数 组数
频率分布直方图(Frequency distribution histogram):
在直角坐标系中,横轴表示样本数据的连续可取数值,按数据的最小值和最大值把样本数据分为m组,使最大值和最小值落在开区间(a,b)内,a略小于样本数据的最小值,b略大于样本数据的最大值。组距为d=(b-a)/m,各数据组的边界范围按左闭右开区间,如[a,a+d),[a+d,a+2d),……[a+(m-1)d,b)。纵轴表示频率除以组距(落在各组样本数据的个数称为频数,频数除以样本总数为频率)的值,以频率和组距的商为高、组距为底的矩形在直角坐标系上来表示,由此画成的统计图叫做频率分布直方图。
频数分布直方图:
通过长方形的高代表对应组的频数与组距的比(因为组距是一个常数,为了画图和看图方便,通常直接用高表示频