假设属性X的数据以数值递增序排列。分位数是取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。4-分位数是3个数据点,他们把数据划分成4个相等的部分,使得每部分表示数据分布的四分之一。通常称它们为四分位数。四分位数给出分布的中心、散布和形状的某种指示。第1个四分位数记作,是第25个百分位数。第3个四分位数记作,是第75个百分位数。
第1个和第3个四分位数之间的距离是散布的一种简单度量,它给出被数据的中间一般所覆盖的范围。该距离称为四分位数极差(),定义为
分布的五数概括由中位数()、四分位数()、最小和最大观测值组成,按次序写出。
盒图对于识别离群点是有用的。盒图是一种流行的分布的直观表示。盒图体现了五数概括:
- 盒的端点一般在四分位数上,使得盒的长度是。
- 中位数用盒内的线标记。
- 盒外的两条线(称作胡须)延伸到最小和最大观测值。
当处理数量适中的观测值时,值得个别的会出可能的离群点。在盒图中占有做:仅当最高和最低观测值超过四分位数不到时,胡须扩展到它们。否则,胡须出现在四分位数的之内的最极端的观测值处终止,剩下的情况个别的绘出。盒图可以用来比较若干个可比较的数据集。
参考文献:《数据挖掘概念与技术 》Jiawei Han, Micheline Kamber, Jian Pei