数据预处理——基本统计描述(一)

        如果想要进行一次成功的数据预处理,把握数据的全貌是至关重要的。而基本统计描述可以用来识别数据的性质,即数据的分布特点,如离散点的识别问题等。

  • 中心趋势度量:均值、中位数、众数
  1. 均值:衡量一组数据的平均水平,不必多说。可是需要主要的是若数据之间的对结果的影响程度是不一样的,那么可以采用加权均值,通过权重来改变各个变量对均值的影响程度。但是,均值对于极值点很敏感,所以也常常采用截尾均值,即去除一个最大值和一个最小值。
  2. 中位数:如果数据的分布呈现的是非对称(倾斜)状,使用均值描述则容易受到弱侧数据的影响导致存在偏差,这时采用中位数会比均值更加合理。
  3. 众数:对于适度倾斜的数据,众数也是一个不错的选择,若均值和中位数已知,可以做一个近似计算来估计众数:

mean-mode\approx 3\times (mean-median)

 

  • 度量数据散布:极差、四分位数、方差、标准差和四分位数极差
  1. 极差:该集合的最大值和最小值。极大值和极小值很有可能是离散点,对于实验结果的作用并不是总是充满善意,但用于衡量数据分布的离散程度倒是有些许用处,如若最大值和中位数相差过大,则有理由怀疑数据的分散程度很高,但并不绝对,这只是一个大致的估计量。
  2. 四分位数:通常是三个将集合平均划分为四等份的三个点。假设1/4处的点为p,3/4处的点为q,p与q的差额,也称四分位数极差,是衡量散步的一个简单度量,用于测算中间部分所占比例。
  3. 五数概括:对于倾斜分布,任何一个单一的数值度量都不是很理想,因此采用中位数、四分位数p与q、最小和最大值的组合进行衡量。
  4. 盒图:体现五数概括的一种图形表示方法,有以下四个规定:(1)盒的端点在四分位点处;(2)中位数用盒内线进行标记;(3)盒外两条线延伸到最小和最大值
  5. 方差和标准差:低标准差意味着数据更加趋近于均值,波动更小,数据分布离散程度越低。
  • 数据的基本统计描述的图形显示:分位数图、分位数-分位数图、直方图、散点图。分位数-分位数图是用来衡量两个集合的数据分布相似程度,也可以说是否存在漂移,绘图的方法是:x轴为集合1,y轴为集合2,在集合1中25%处的数值为2,在集合2中25%处的数值为3,则(2,3)为图中一个点。注:y=x为两个集合相似情况下的曲线。
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值