MatLab(第六讲:boxplot图)_追逐梦想的顾咏丰_新浪博客

boxplot()指的就是盒图,记得在 HAN-Jiawei 的那本著名的《数据挖掘》中,首先介绍的就是盒图,先来回顾以下数据挖掘中很重要的几个度量。

 
  • 居中趋势的度量
  • 离散性的度量
  • 依赖关系的度量
  • 可视化的度量

1. 居中趋势的度量

居中趋势的度量表征数据集的“中间”,表示数据样本在某一点集中的特性。具体的度量有:均值( mean),中位数( median),众数( mode)等等,计算方式比较简单,举例如下,设 x = [1 3 3 3 4 5 7 8 12],则

length(x) = 9 // 长度为9
mean(x) = (1+3+3+3+4+5+7+8+12)/9 = 5.1111   // 均值为5.1111
median(x) = 4   // 中位数是第5个数,为4
mode(x) = 3   // 众数是3,出现了3次

2. 离散性的度量

离散性的度量是用来测量数据集偏离居中趋势的水平,即数据有多么集中或者有多么发散。具体的度量有:方差( variance),标准差( standard deviation),值域( range),变化区间( variation interval)等,同上面的例子 x = [1 3 3 3 4 5 7 8 12],则

var(x) = 11.3611  // 方差为11.3611
std(x) = 3.3706   // 标准差为3.3706
range(x) = 11   // 值域是11

3. 依赖关系的度量

当数据集是由随机变量X和Y产生的关联样本(xi,yi)组成时,用此度量来测量二者之间的依赖关系。如线性关系( linear regression), 协方差,皮尔森相关系数( Pearson's Correlation), Spearman等级相关系数等。

4. 可视化的度量

这个可视化,就可以用图来表示,首先的一些直方图(bar),饼图(pie),折线图(plot),前期都讲过,这次主要研究一下盒图(boxplot)。假设仍然 x = [1 3 3 3 4 5 7 8 12],

boxplot(x)   // 根据x向量构造盒图

那么这个盒图大概就长成一下这个样子,由上到下,依次是最大值,上四分位数,中位数,下四分位数,最小值(当然,本例中并没有离群点)。

MatLab(第六讲:boxplot图)


-------------------------------------
[1] 沃林等.  经验软件工程 : Experimentation in software engineering : 软件工程中的实验研究方法. 机械工业出版社, 2015.
[2] JiaweiHan等.  数据挖掘:概念与技术. 机械工业出版社, 2012.
[3] 百度百科.   盒图,2017.
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值