数值型属性（一元）

最新推荐文章于 2025-04-25 17:09:07 发布

以观Los

最新推荐文章于 2025-04-25 17:09:07 发布

阅读量760

点赞数 10

文章标签：数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/eral_/article/details/140097502

版权

集中趋势度量

均值

均值是某一随机变量的期望值，反映了X分布的位置或集中趋势。

鲁棒性

如果统计量不受数据中的极端值（例如离群值）的影响，那么就说该统计量是鲁棒的。

因此，样本均值并不具有鲁棒性，因为其非常容易受到样本极端数据的影响。为了使样本的鲁棒性更好，通常采用舍弃一小部分极端值的做法，称为切尾均值(trimmed mean)。

中位数

随机变量的中位数定义为一个值m，该值满足：
$P(X\le m) \ge \dfrac{1}{2} \quad且\quad P(X\ge m)\ge \dfrac{1}{2}$
因而中位数即分布函数最中间的值。可以看出，均值受极端值影响较小，且出现于样本中。

众数

随机变量的众数是对应概率密度函数达到最大值时X的值。
$\mathrm{mode}(X)=\mathrm{arg}\underset{x}{\mathrm{max}}\hat{f}(x)$
因此，众数并不能非常好反映样本集中的趋势。

离散度度量

极差

随机变量X的极差为X的最大值和最小值之间的差：
$r=\mathrm{max\{X\}}-\mathrm{min\{X\}}$
需要注意的是，样本的极差是一个总体参数，与随机变量X的值域不同。
并且从极差定义，极差对于极端值很敏感，因此不鲁棒。

四分位差

四分位数(quartile)是分位数函数(随机变量X的逆CDF函数)的特殊值，将数据进行四等分，分别对应0.25、0.5、0.75、1的分位数值。

一个比较鲁棒的X离散度度量是四分位差(InterQuartile Range)，定义为
$\mathrm{IQR}=q_3-q_1=F^{-1}(0.75)-F^{-1}(0.25)$
IQR也被视为切边极差(Trimmed range)，在其中舍弃了50%的数据，只保留了中间的数据。

方差和标准差

方差和标准差用来衡量X的取值偏离X均值的程度。标准差 $\sigma$ 为方差的正平方根。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。