异常检测
- 问题的动机(Problem Motivation)
- 高斯分布(Gaussian Distribution)
- 算法(Algorithm)
- 开发和评估异常检测系统(Developing and Evaluating an Anomaly Detection System)
- 异常检测 VS. 监督学习(Anomaly Detection vs. Supervised Learning)
- 选择要使用的特征(Choosing What Features to Use)
- 多元高斯分布(Multivariate Gaussian Distribution)
- 使用多变量高斯分布的异常检测(Anomaly Detection Using the Multivariate Gaussian Distribution)
问题的动机(Problem Motivation)
- 异常检测(Anomaly Detection): 给定数据集 x ( 1 ) , x ( 2 ) , . . . , x ( m ) x^{(1)},x^{(2)},...,x^{(m)} x(1),x(2),...,x(m),假使数据集是正常的,希望知道新的数据 x t e s t x_{test} xtest是不是异常的,即这个测试数据不属于该组数据的几率如何。我们所构建的模型应该能根据该测试数据的位置告诉我们其属于一组数据的可能性 p ( x ) p(x) p(x)。
- 密度估计:
i f p ( x ) { < ε a n o m a l y = ε n o r m a l if \quad p(x) \begin{cases} < \varepsilon & anomaly \\ =\varepsilon & normal \end{cases} ifp(x){ <ε=εanomalynormal
- 应用:
- 欺诈检测: 检测配正常用户(登录频率、页面访问情况、发帖数量、打字速度等)
- 检测数据中心: 判断计算机是否出错(内存使用情况、被访问的磁盘数量、CPU负载、网络通信等)
高斯分布(Gaussian Distribution)
- 高斯分布/正态分布:
- 若 x x x符合高斯分布 x ∼ N ( μ , σ 2 ) x \sim N(\mu,\sigma^2) x∼N(μ,σ2),则其概率密度函数为 p ( x , μ , σ 2 ) = 1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 ) p(x,\mu,\sigma^2)=\cfrac{1}{\sqrt{2 \pi}\sigma}exp(-\cfrac{(x-\mu)^2}{2\sigma^2}) p(x,μ,σ2)=2πσ1exp(−2σ2(x−μ)2)。
- 可以利用已有数据来预测总体的 μ \mu μ和 σ 2 \sigma^2 σ2: μ = 1 m ∑