正态分布在统计学中占有十分重要的地位。从事数据挖掘工作的人员需要用到它,以提取有价值的信息。生活中也常常有它的身影。举例说明。
生活or实验数据中隐藏的奥秘我们先观察某中学男生的身高数据,从中指出身高最高和最矮的同学,或者算出他们身高的平均值。之后,如果我们想要知道男生身高数据的分布情况,比如1.7米至1.75米之间,有多少人,占所有男生的比例是多少,我们应该怎么做?如图1所示,我们可以画出频率分布直方图,将身高最小值至最大值这一区间等分成若干组,统计每一组男生的人数和频率。然后,在平面直角坐标系中,用横坐标代表身高,纵坐标是每个小组的频率除以相应的组距,并绘制出相应的矩形,每个矩形的面积就是该小组的频率。
图 1
从身高的频率分布直方图中我们可以看到,数据大致呈现“中间高,两边低”的特点。在十六七岁的男生中,超过1.85米和低于1.5米的人数都非常少,而大部分人的身高均集中在1.6米至1.75米之间。因此,虽然每个人的身高