数据挖掘(Data Mining):异常检测(Anomally Detection)

Anomaly detection

Definition

异常意味着一个观测点不满足一个正常的距离数据集的分布,即不满足分布的大多数实例。

异常,特征和原因 (Anomalies: features and causes)

  1. An outlier of the data, which is obviously far away from the majority of instances.

  2. Be measured by carefulness measurer.

  3. Error with the measuring tools.

  4. Try to make it normal first, otherwise remove it.

噪声和异常(Noise and outliers/anomalies)

  • 噪音和异常是相关但是截然不同的概念。

  • 噪声是错误的,可能随机值或污染物体。

    • 重量记录错误

    • 葡萄柚与橙子混合

  • 噪音没有必要产生异常值或对象。

  • 噪音不是有趣的,通常有益于删除它。

  • 如果它们不是噪声的结果,异常可能会有趣

检测异常(Statistical approaches)

异常值的概率定义:异常值是对数据概率分布模型具有低概率的对象

  • 通常假设描述数据分布的辅助模型(例如,正常分布)。

  • 应用取决于:

    • data分布的统计测试。

    • 分布参数(例如,平均,方差)。

    • 预期异常值(置信限制)。

统计方法的优缺点

  • 坚实的数学基础。

  • 可能非常有效。

  • 如果分布已知,则结果良好。

    • 异常会扭曲分布的参数。

  • 在许多情况下,可能不知道数据分布。

    • 识别数据集的分布。

      • 重尾分布。

    • 属性的数量。

    • 数据是分布的混合吗?

  • 对于高维数据,可能难以估计真实分布。

检测方法:基于距离的异常分数

简单的想法:“正常”点应该靠近许多类似的“正常”点,而异常点将远离其他点。

score(x) = dist(x, k)

缺点:

  • 当数据点比较少的时候,很多点都会被认为是异常点。

  • 当数据规模较大时,计算的复杂度较高。

Example: KNN

当k为1时,在图上的数据点分布中,点D可以被计算为outlier。

当k为1时,在图上的分布中,D并不能被计算为outlier,因为它存在一个近邻。

当k为5时,在图上的分布中,D被计算为outlier,因为他只存在4个近邻,一个远邻,那么计算下来的平均距离较大。

检测方法:基于距离和密度的方法

计算公式:

 我们已经使用到 KNN 邻居的距离来定义密度 (DB-SCAN)。

Example: Differing densities

通过计算相对距离,D可以被标记为异常点,但是箭头指向的点按理来说也是一个异常点但是由于相对距离并没有计算出这个异常点。

 

改进方法

  • Sensitivity to k

    • 对k近邻使用平均距离z: 𝑎𝑣𝑔.𝑑𝑖𝑠𝑡(𝒙,𝑘)

    • 定义平均密度: 𝑎𝑣𝑔.𝑑𝑒𝑛𝑠𝑖𝑡𝑦(𝒙,𝑘)=1/𝑎𝑣𝑔.𝑑𝑖𝑠𝑡(𝒙,𝑘)

  • Varying density

    • 使用相对密度

    • 用x的第i个近邻表示为$y_i$

      relative\ density(x,k) = \frac{\sum_{i=1}^kdensity(y_i,k)/k}{density(x,k)}

  • 可以使用平均密度代替密度

  • LOF(local outlier factor)

Example:计算类LOF异常分数 

以上图为例,如果我们想计算5的相对密度,计算结果如下

density(5,2)=\frac{1}{dist(5,3)||dist(5,7)}=1/2\\ density(3,2)=\frac{1}{dist(3,1)||dist(3,5)}=1/2\\ density(7,2)=\frac{1}{dist(7,5)||dist(7,9)}=1/2\\ relative\ density(5,2) = \frac{(1/2+1/2)/2}{1/2}=1

优势/劣势,基于邻近度(Strengths/weaknesses, proximity-based)

  • 简单

  • 计算成本高:需要计算所有点之间的成对距离:O (n^2)

  • 对参数敏感(某些方法也对相对密度敏感)。

  • 在高维空间中数据很难处理。

数据的性质

  • 单变量与多变量。

  • 记录数据与近似矩阵。

  • 标签的可用性。

    • 如果可用,可以视为分类。

    • 不平衡类的问题。

    • 标签难以获得。

  • 数量相对较少。

    • 整个数据(不完全)代表正常类。

  • 异常数据通常呈现稀疏分布。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值