【机器学习】课程笔记14_异常检测(Anomaly Detection)

本文介绍了异常检测的概念,强调了在数据集上检测异常的重要性,特别是在欺诈检测和数据中心监控等场景的应用。文章深入探讨了高斯分布及其在异常检测算法中的作用,包括如何计算均值和方差。此外,还讨论了如何选择合适的特征、评估检测系统的性能,并对比了异常检测与监督学习的区别。最后,文章提到了多元高斯分布在处理非规则分布数据时的优势,并展示了如何使用多变量高斯分布进行异常检测。
摘要由CSDN通过智能技术生成

问题的动机(Problem Motivation)

  • 异常检测(Anomaly Detection): 给定数据集 x ( 1 ) , x ( 2 ) , . . . , x ( m ) x^{(1)},x^{(2)},...,x^{(m)} x(1),x(2),...,x(m),假使数据集是正常的,希望知道新的数据 x t e s t x_{test} xtest是不是异常的,即这个测试数据不属于该组数据的几率如何。我们所构建的模型应该能根据该测试数据的位置告诉我们其属于一组数据的可能性 p ( x ) p(x) p(x)
  • 密度估计:

i f p ( x ) { < ε a n o m a l y = ε n o r m a l if \quad p(x) \begin{cases} < \varepsilon & anomaly \\ =\varepsilon & normal \end{cases} ifp(x){ <ε=εanomalynormal

  • 应用:
    • 欺诈检测: 检测配正常用户(登录频率、页面访问情况、发帖数量、打字速度等)
    • 检测数据中心: 判断计算机是否出错(内存使用情况、被访问的磁盘数量、CPU负载、网络通信等)

高斯分布(Gaussian Distribution)

  • 高斯分布/正态分布:
    • x x x符合高斯分布 x ∼ N ( μ , σ 2 ) x \sim N(\mu,\sigma^2) xN(μ,σ2),则其概率密度函数为 p ( x , μ , σ 2 ) = 1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 ) p(x,\mu,\sigma^2)=\cfrac{1}{\sqrt{2 \pi}\sigma}exp(-\cfrac{(x-\mu)^2}{2\sigma^2}) p(x,μ,σ2)=2π σ1exp(2σ2(xμ)2)
    • 可以利用已有数据来预测总体的 μ \mu μ σ 2 \sigma^2 σ2 μ = 1 m ∑
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

雀栎

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值