数据预处理之描述性数据汇总

一、度量数据的中心趋势

各种方法:

1、分布式度量 (distributive measure)

均值 (average)

截断均值 (trimmed mean):去掉高、低极端值后的均值。

加权均值 (weighted average)

2、整体度量 (holistic measure)

中位数:排序后,中间的数据

众数:出现次数最多的数据

中列数:(max + min)/2

二、度量数据的离散程度

1、极差、四分位数、离群点和盒图

极差 (range):max - min

四分位数 (quartile):第一个四分位数记做Q1,是第25个百分位数;第三个四分位数记做Q3,是第75个百分位数。

中间四分位数极差 (IQR):Q3 - Q1

一个识别可疑的离群点的常用经验:挑出落在至少高于第三个四分位数或低于第一个四分位数1.5 * IQR处的值。

分布的五数概括(five-numbersummary)由中位数,四分位数Q1和Q3,min和max组成。

盒图 (boxplot)体现了五数概括:在典型情况下,盒的端点在四分位数上使得盒的长度等于IQR;中位数用盒内的线标记;盒外的两条线(称作胡须)延伸到min和max值。

2、方差和标准差

 

标准差是方差的平方根。

3、图形显示

条形图

直方图

分位数图

散布图

局部回归曲线

q - q图

 

 

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/13496062/viewspace-624354/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/13496062/viewspace-624354/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值