boxplot()指的就是盒图,记得在 HAN-Jiawei 的那本著名的《数据挖掘》中,首先介绍的就是盒图,先来回顾以下数据挖掘中很重要的几个度量。
- 居中趋势的度量
- 离散性的度量
- 依赖关系的度量
- 可视化的度量
1. 居中趋势的度量
居中趋势的度量表征数据集的“中间”,表示数据样本在某一点集中的特性。具体的度量有:均值(
mean),中位数(
median),众数(
mode)等等,计算方式比较简单,举例如下,设 x = [1 3 3 3 4 5 7 8 12],则
length(x) = 9
// 长度为9
mean(x) = (1+3+3+3+4+5+7+8+12)/9 = 5.1111
// 均值为5.1111
median(x) = 4
// 中位数是第5个数,为4
mode(x) = 3
// 众数是3,出现了3次
2. 离散性的度量
离散性的度量是用来测量数据集偏离居中趋势的水平,即数据有多么集中或者有多么发散。具体的度量有:方差(
variance),标准差(
standard deviation),值域(
range),变化区间(
variation interval)等,同上面的例子 x = [1 3 3 3 4 5 7 8 12],则
var(x) = 11.3611
// 方差为11.3611
std(x) = 3.3706
// 标准差为3.3706
range(x) = 11
// 值域是11
3. 依赖关系的度量
当数据集是由随机变量X和Y产生的关联样本(xi,yi)组成时,用此度量来测量二者之间的依赖关系。如线性关系(
linear regression),
协方差,皮尔森相关系数(
Pearson's Correlation),
Spearman等级相关系数等。
4. 可视化的度量
这个可视化,就可以用图来表示,首先的一些直方图(bar),饼图(pie),折线图(plot),前期都讲过,这次主要研究一下盒图(boxplot)。假设仍然 x = [1 3 3 3 4 5 7 8 12],
boxplot(x)
// 根据x向量构造盒图
那么这个盒图大概就长成一下这个样子,由上到下,依次是最大值,上四分位数,中位数,下四分位数,最小值(当然,本例中并没有离群点)。
-------------------------------------
[1] 沃林等.
经验软件工程 : Experimentation in software engineering : 软件工程中的实验研究方法. 机械工业出版社, 2015.
[2] JiaweiHan等.
数据挖掘:概念与技术. 机械工业出版社, 2012.
[3] 百度百科.
盒图,2017.