世界上使社会变得伟大的人,正是那些有勇气在生活中尝试和解决人生新问题的人!——泰戈尔
直方图(Histogram),又称质量分布图,是一种统计报告图,由一系列高度不等的纵向条纹或线段表示数据分布的情况。 一般用横轴表示数据类型,纵轴表示分布情况。
直方图是数值数据分布的精确图形表示。 这是一个连续变量(定量变量)的概率分布的估计,并且被卡尔·皮尔逊(Karl Pearson)首先引入。它是一种条形图。 为了构建直方图,第一步是将值的范围分段,即将整个值的范围分成一系列间隔,然后计算每个间隔中有多少值。 这些值通常被指定为连续的,不重叠的变量间隔。 间隔必须相邻,并且通常是(但不是必须的)相等的大小。
在质量管理中,如何预测并监控产品质量状况?如何对质量波动进行分析?直方图就是一目了然地把这些问题图表化处理的工具。它通过对收集到的貌似无序的数据进行处理,来反映产品质量的分布情况,判断和预测产品质量及不合格率。
直方图又称质量分布图,它是表示资料变化情况的一种主要工具。用直方图可以解析出资料的规则性,比较直观地看出产品质量特性的分布状态,对于资料分布状况一目了然,便于判断其总体质量分布情况。
在制作直方图时,牵涉统计学的概念,首先要对资料进行分组,因此如何合理分组是其中的关键问题。按组距相等的原则进行的两个关键数位是分组数和组距。是一种几何形图表,它是根据从生产过程中收集来的质量数据分布情况,画成以组距为底边、以频数为高度的一系列连接起来的直方型矩形图,如图所示。
作直方图的目的就是通过观察图的形状,判断生产过程是否稳定,预测生产过程的质量。具体来说,作直方图的目的有:
a、判断一批已加工完毕的产品;搜集有关数据。
直方图将数据根据差异进行分类,特点是明察秋毫地掌握差异。
b、在工程质量管理中,作直方图的目的有:
1)估算可能出现的不合格率;
2)考察工序能力估算法
3)判断质量分布状态;
4)判断施工能力;
c、统计一组数据的常见值。
直方图的常见作用如下:
(1)显示质量波动的状态;
(2)较直观地传递有关过程质量状况的信息;
(3)通过研究质量波动状况之后,就能掌握过程的状况,从而确定在什么地方集中力量进行质量改进工作。
制作直方图流程如下:
1、定义
在统计数据时,按照频数分布表,在平面直角坐标系中,横轴标出每个组的端点,纵轴表示频数,每个矩形的高代表对应的频数,称这样的统计图为频数分布直方图。
相关概念:
组数:在统计数据时,我们把数据按照不同的范围分成几个组,分成的组的个数称为组数。
组距:每一组两个端点的差。
2、特点
①能够显示各组频数分布的情况;
②易于显示各组之间频数的差别。
3、目的
作直方图的目的就是通过观察图的形状,判断生产过程是否稳定,预测生产过程的质量。
3.1、判断一批已加工完毕的产品;
搜集有关数据。
直方图将数据根据差异进行分类,特点是明察秋毫地掌握差异。
3.2、在公路工程质量管理中,作直方图的目的有:
①估算可能出现的不合格率;
②考察工序能力估算法
③判断质量分布状态;
④判断施工能力;
4、绘制注意事项
a. 抽取的样本数量过小,将会产生较大误差,可信度低,也就失去了统计的意义。因此,样本数不应少于50个。
b. 组数 k 选用不当,k 偏大或偏小,都会造成对分布状态的判断有误。
c. 直方图一般适用于计量值数据,但在某些情况下也适用于计数值数据,这要看绘制直方图的目的而定。
d. 图形不完整,标注不齐全,直方图上应标注:公差范围线、平均值 的位置(点画线表示)不能与公差中心M相混淆;图的右上角标出:N、S、C p或 CPK.
5、制作方法
①集中和记录数据,求出其最大值和最小值。数据的数量应在100个以上,在数量不多的情况下,至少也应在50个以上。 我们把分成组的个数称为组数,每一个组的两个端点的差称为组距。
②将数据分成若干组,并做好记号。分组的数量在5-12之间较为适宜。
③计算组距的宽度。用最大值和最小值之差去除组数,求出组距的宽度。
④计算各组的界限位。各组的界限位可以从第一组开始依次计算,第一组的下界为最小值减去最小测定单位的一半,第一组的上界为其下界值加上组距。第二组的下界限位为第一组的上界限值,第二组的下界限值加上组距,就是第二组的上界限位,依此类推。
⑤统计各组数据出现频数,作频数分布表。
⑥作直方图。以组距为底长,以频数为高,作各组的矩形图。
6、应用步骤
(1)收集数据。作直方图的数据一般应大于50个。
(2)确定数据的极差(R)。用数据的最大值减去最小值 求得。
(3)确定组距(h)。先确定直方图的组数,然后以此组数去除极差,可得直方图每组的宽度,即组距。组数的确定要适当。组数太少,会引起较大计算误差;组数太多,会影响数据分组规律的明显性,且计算工作量加大。
(4)确定各组的界限值。为避免出现数据值与组界限值重合而造成频数据计算困难,组的界限值单位应取最小测量单位的1/2。分组时应把数据表中最大值和最小值包括在内。
第一组下限值为:最小值-0.5;
第一组上限值为:第一组下限值加组距;
第二组下限值就是第一组的上限值;
第二组上限值就是第二组的下限值加组距;
第三组以后,依此类推定出各组的组界。
(5)编制频数分布表。把多个组上下界限值分别填入频数分布表内,并把数据表中的各个数据列入相应的组,统计各组频数据(f )。
(6)按数据值比例画出横坐标。
(7)按频数值比例画纵坐标。以观测值数目或百分数表示。
(8)画直方图。按纵坐标画出每个长方形的高度,它代表取落在此长方形中的数据数。(注意:每个长方形的宽度都是相等的。)在直方图上应标注出公差范围(T)、样本容量(n)、样本平均值(x)、样本标准偏差值(s)和x的位置等。
7、实例
现以某厂生产的产品重量为例,对应用直方图的步骤加以说明:
(1)收集数据。作直方图的数据一般应大于50个。本例 在生产过程中收集了100个数据,列于表一中。
(2)确定数据的极差(R)。用数据的最大值减去最小值 求得。本例最大值X max =48(cg),最小值X min =1(cg),所以极差 R= 48-1= 47(cg).
直方图应用案例图
(3)确定组距(h)。先确定直方图的组数,然后以此组数去除极差,可得直方图每组的宽度,即组距。组数的确定要适当。组数太少,会引起较大计算误差;组数太多,会影响数据分组规律的明显性,且计算工作量加大。组数(k)的确定可参考组数(k)选用表二。
(4 )确定各组的界限值。为避免出现数据值与组界限值重合而造成频数据计算困难,组的界限值单位应取最小测量单位的1/2。本例最小测量单位是个位,其界限值应取0.5。分组时应把数据表中最大值和最小值包括在内。
第一组下限值为:最小值-0.5=0.5;
第一组上限值为:第一组下限值加组距,即0.5+5=5.5;
第二组下限值就是第一组的上限值,即5.5;
第二组上限值就是第二组的下限值加组距,即5.5+5=10.5;
第三组以后,依此类推定出各组的组界。
(5)编制频数分布表。把多个组上下界限值分别填入频数分布表内,并把数据表中的各个数据列入相应的组,统计各组频数据(f )。
(6)按数据值比例画出横坐标。
(7)按频数值比例画纵坐标。以观测值数目或百分数表示。
(8)画直方图。按纵坐标画出每个长方形的高度,它代表取落在此长方形中的数据数。(注意:每个长方形的宽度都是相等的。)在直方图上应标注出公差范围(T)、样本容量(n)、样本平均值(X)、样本标准偏差值(s)和-x的位置等。
借用软件可以快速制作直方图,直方图案例图如下:
直方图数据基本分析如下:
正常型是指过程处于稳定的图型,它的形状是中间高、两边低,左右近似对称。近似是指直方图多少有点参差不齐,主要看整体形状。如下图例:
异常型直方图种类则比较多,所以如果是异常型,还要进一步判断它属于哪类异常型,以便分析原因、加以处理。下面介绍几种比较常见的:
A、孤岛型
在直方图旁边有孤立的小岛出现,当这种情况出现时过程中有异常原因。如:原料发生变化,不熟练的新工人替人加班,测量有误等,都会造成孤岛型分布,应及时查明原因、采取措施。
孤岛型直方图
B、双峰型
当直方图中出现了两个峰,这是由于观测值来自两个总体、两个分布的数据混合在一起造成的。如:两种有一定差别的原料所生产的产品混合在一起,或者就是两种产品混在一起,此时应当加以分层。
双峰型直方图
C、折齿型
当直方图出现凹凸不平的形状,这是由于作图时数据分组太多,测量仪器误差过大或观测数据不准确等造成的,此时应重新收集数据和整理数据。
折齿型直方图
D、陡壁型
当直方图像高山的陡壁向一边倾斜时,通常表现在产品质量较差时,为了符合标准的产品,需要进行全数检查,以剔除不合格品。当用剔除了不合格品的产品数据作频数直方图时容易产生这种陡壁型,这是一种非自然形态。
陡壁型直方图
E、偏态型
偏态型直方图是指图的顶峰有时偏向左侧、有时偏向右侧。由于某种原因使下限受到限制时,容易发生偏左型。如:用标准值控制下限,摆差等形位公差,不纯成分接近于0,疵点数接近于0或由于工作习惯都会造成偏左型。
由于某种原因使上限受到限制时,容易发生偏右型。如:用标准尺控制上限,精度接近100%,合格率也接近100%或由于工作习惯都会造成偏右型。
偏态型直方图
F、平顶型
当直方图没有突出的顶峰,呈平顶型,然而形成这种情况一般有三种原因。 A、与双峰型类似,由于多个总体、多总分布混在一起。 B、由于生产过程中某中缓慢的倾向在起作用,如工具的磨损、操作者的疲劳等。 C、质量指标在某个区间中均匀变化。
平顶型直方图
现在制作直方图软件也有很多,不需要分析人员单独再手工计算及制图,我们只需要输入分析的数据,软件都可以协助分析。主要还是分析人员会熟悉使用工具,经常使用直方图进行分析及解决问题