异常检测 anomaly detection

异常检测的应用

  • 欺诈检测
  • 工业质量监测
  • 计算机集群监测
  • 等等

定义

给定一些数据集 D = { x 1 , x 2 , … , x m } D=\{x_1,x_2,\dots,x_m\} D={x1,x2,,xm},注意这些样本是unlabel的,构建一个模型 p ( x ) p(x) p(x),对于一个新的样本 x t e s t x_{test} xtest,判断该样本是否异常。当 p ( x t e s t ) ≤ ϵ p(x_{test})\le \epsilon p(xtest)ϵ时为异常, p ( x t e s t ) > ϵ p(x_{test})> \epsilon p(xtest)>ϵ为正常的。

高斯分布

高斯分布又称正态分布

如果一个实数服从高斯分布,表示为 X ∼ N ( μ , σ ) X \sim N(\mu,\sigma) XN(μ,σ), μ \mu μ是均值,控制函数的中心, σ \sigma σ是方差,控制函数的宽度。

公式

N ( μ , σ ) = 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2 N(\mu,\sigma)=\frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} N(μ,σ)=2πσ2 1e2σ2(xμ)2

异常检测算法

  • 数据集 X = { x 1 , x 2 , … , x m } , x ∈ R n X=\{x^1,x^2,\dots,x^m\},x\in \mathbb{R}^n X={x1,x2,,xm},xRn

  • 计算每个特征 j j j的高斯分布参数 μ j , σ j \mu_j,\sigma_j μj,σj:
    μ j = 1 m ∑ i = 1 m x j i \mu_j=\frac{1}{m}\sum_{i=1}^{m}x_j^i μj=m1i=1mxji
    σ j 2 = 1 m ∑ i = 1 m ( x j i − μ j ) 2 \sigma_j^2=\frac{1}{m}\sum_{i=1}^{m}(x_j^i-\mu_j)^2 σj2=m1i=1m(xjiμj)2

  • 对于每一个待测试样本,计算
    p ( x ) = ∏ j = 1 n p ( x j ; μ j ; σ j 2 ) = ∏ j = 1 n 1 2 π σ j 2 e − ( x j − μ j ) 2 2 σ j 2 p(x)=\prod_{j=1}^{n}p(x_j;\mu_j;\sigma_j^2)=\prod_{j=1}^{n}\frac{1}{\sqrt{2\pi\sigma_j^2}} e^{-\frac{(x_j-\mu_j)^2}{2\sigma_j^2}} p(x)=j=1np(xj;μj;σj2)=j=1n2πσj2 1e2σj2(xjμj)2

  • 将结果跟阈值 ϵ \epsilon ϵ比较, p ( x ) &lt; ϵ p(x) &lt; \epsilon p(x)<ϵ则为异常

建立一个异常检测系统的一般步骤

  • 将带有label的数据集划分为训练集、验证集和测试集

    注意将异常数据大致平均分配到每个集合中

    通常情况下,验证集和测试集的数据都应该是互不相同的,即两个集合没有交集
  • 使用训练集训练算法P(x)

    为了避免正负样本分布不均,使用F1-score来评价算法性能
  • 使用验证集来选择阈值 ϵ \epsilon ϵ

异常检测和监督学习的区别

异常检测
  • 正例(异常样本)通常都非常少,通常是10这个数量级。
  • 反例(正常样本)数量非常多。
  • 异常的种类非常多,无法通过特征一一确定。未来的异常种类不能预见。
监督学习
  • 正例和反例都非常多,并且分布差异不大
  • 可以用特征来确定分类

数据预处理

当特征的样本分布为正态分布时,可以直接将样本fit到算法中

当数据为长尾分布时

使用
x = l o g ( x + c ) o r x = x c , c &lt; 1 x=log(x+c) \\ or\\ x=x^c,\quad c&lt;1 x=log(x+c)orx=xc,c<1
来将数据转换为正态分布

异常检测综述是关于在不同的研究领域和应用领域中进行研究的一个重要问题。许多异常检测技术已经具体解决了这个问题的表述。不同的因素,如数据的性质、标记数据的可用性和要检测的异常类型等,会导致异常检测问题的挑战。通常,这些因素是由应用领域决定的,需要检测哪些异常。研究人员采用了统计学、机器学习、数据挖掘、信息论、光谱理论等不同学科的概念,并将其应用于具体的问题公式。通过图2可以看到与任何异常检测技术相关的关键组件。 与关于点异常检测技术的丰富文献相比,对上下文异常检测的研究相对有限。一般来说,这类技术可以分为两类。第一类技术将上下文异常检测问题简化为点异常检测问题,而第二类技术则对数据中的结构进行建模,并使用该模型来检测异常。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Anomaly Detection_A Survey](https://download.csdn.net/download/juicymeng/10387314)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [异常检测综述(Anomaly Detection: A Survey)](https://blog.csdn.net/weixin_43883602/article/details/124472597)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值