数值型属性(一元)

集中趋势度量

均值

均值是某一随机变量的期望值,反映了X分布的位置或集中趋势。

鲁棒性

如果统计量不受数据中的极端值(例如离群值)的影响,那么就说该统计量是鲁棒的。

因此,样本均值并不具有鲁棒性,因为其非常容易受到样本极端数据的影响。为了使样本的鲁棒性更好,通常采用舍弃一小部分极端值的做法,称为切尾均值(trimmed mean)。

中位数

随机变量的中位数定义为一个值m,该值满足:
P ( X ≤ m ) ≥ 1 2 且 P ( X ≥ m ) ≥ 1 2 P(X\le m) \ge \dfrac{1}{2} \quad且\quad P(X\ge m)\ge \dfrac{1}{2} P(Xm)21P(Xm)21
因而中位数即分布函数最中间的值。可以看出,均值受极端值影响较小,且出现于样本中。

众数

随机变量的众数是对应概率密度函数达到最大值时X的值。
m o d e ( X ) = a r g m a x x f ^ ( x ) \mathrm{mode}(X)=\mathrm{arg}\underset{x}{\mathrm{max}}\hat{f}(x) mode(X)=argxmaxf^(x)
因此,众数并不能非常好反映样本集中的趋势。

离散度度量

极差

随机变量X的极差为X的最大值和最小值之间的差:
r = m a x { X } − m i n { X } r=\mathrm{max\{X\}}-\mathrm{min\{X\}} r=max{X}min{X}
需要注意的是,样本的极差是一个总体参数,与随机变量X的值域不同。
并且从极差定义,极差对于极端值很敏感,因此不鲁棒。

四分位差

四分位数(quartile)是分位数函数(随机变量X的逆CDF函数)的特殊值,将数据进行四等分,分别对应0.25、0.5、0.75、1的分位数值。

一个比较鲁棒的X离散度度量是四分位差(InterQuartile Range),定义为
I Q R = q 3 − q 1 = F − 1 ( 0.75 ) − F − 1 ( 0.25 ) \mathrm{IQR}=q_3-q_1=F^{-1}(0.75)-F^{-1}(0.25) IQR=q3q1=F1(0.75)F1(0.25)
IQR也被视为切边极差(Trimmed range),在其中舍弃了50%的数据,只保留了中间的数据。

方差和标准差

方差和标准差用来衡量X的取值偏离X均值的程度。标准差 σ \sigma σ为方差的正平方根。

  • 10
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值