✅ 一、什么是“偏态”与“厚尾”?(供你用于解释)
📌 偏态分布(Skewed Distribution):
- 定义:数据分布在均值的一侧拉长或压缩,呈现不对称结构。
- 正偏(右偏):右侧尾巴较长,如收入、寿命分布;
- 负偏(左偏):左侧尾巴较长。
📌 厚尾分布(Heavy-tailed Distribution):
- 定义:相对于正态分布,厚尾分布的尾部衰减速度更慢,意味着极端值出现的概率更大;
- 常见的厚尾分布:t 分布、柯西分布、幂律分布等。
✅ 二、IQR方法在这类分布下的问题:
- 四分位数法是基于中位数和四分位距的非参数方法,适用于对称或近似正态的数据。
- 当数据存在明显偏态或厚尾时,固定1.5倍IQR的阈值不再合理,可能:
- 误判正常值为异常(即“误报”);
- 漏检真正的异常(即“漏报”);
✅ 三、清晰对比以下三种情况:
📊 :
曲线 | 特征 | 标注内容 |
---|---|---|
① 正态分布 | 对称分布,IQR阈值适用 | 标出 Q1, Q3, IQR,固定倍数 |
② 偏态分布 | 偏右或偏左,尾部拉长 | 固定1.5×IQR 会误判尾部 |
③ 厚尾分布 | 两侧尾部肥大 | 固定阈值误判更严重 |