第十六章 异常检测anomaly detection

课时123 问题动机
在这里插入图片描述
给了无标签的训练集,对数据建模p(x):
在这里插入图片描述
最常见的应用是欺诈检测,找到行为异常的user,他们可能是有欺诈行为或者被盗号,要求他们提供身份信息;另一个例子是在工业生产领域,如上面找到生产的异常的飞机引擎,要求进一步细查这些引擎的质量;第三个应用是数据中心的计算机监控,可以为每台计算机计算特征变量,根据这些建模p(x),如果一台计算机p(x)< ,可以让管理员查看他的工作状态:
在这里插入图片描述

课时124 高斯分布(正态分布)
均值μ,方差σ2.钟型的面积永远为1.

在这里插入图片描述
参数估计问题:给定数据集,估计出参数μ和σ2的值。(极大似然估计)
在这里插入图片描述

课时125 算法
密度估计问题:
在这里插入图片描述
异常检测算法:
在这里插入图片描述
下图是一个有两个特征的训练集,以及特征的分布情况,选定一个epsilon作阈值在这里插入图片描述

课时126 开发和评估异常检测系统
异常检测算法是一个非监督学习算法,意味着我们无法根据结果变量y的值来告诉我们数据是否真的是异常的,就需要另一种方法来帮助检验算法是否有效。
评估一个异常检测系统:因为正常情况y=0的情况很常见,数据很倾斜,所以不用分类正确率衡量,用准确率和召回率。先划分数据:
在这里插入图片描述
在这里插入图片描述
也可以用交叉验证集选择epsilon,就是选择使得F1最大的epsilon。

课时127 异常检测VS监督学习

主要来说异常检测算法只有少量正样本。当规模足够大,有大量的正样本和负样本,可以用监督学习算法。

课时128 选择要使用的特征
如果特征分布直方图(用hist命令实现)不接近高斯分布的钟型,需要对特征进行一些改变:
在这里插入图片描述
如何得到异常检测算法的特征:误差分析步骤:分析那些被算法错误预测为正常的数据,从分析中可能可以增加新的特征。
在这里插入图片描述
我们还可以通过将一些相关的特征进行组合,来获得一些新的更好的特征(异常数据的该特征值异常地大或小),例如在检测数据中心的计算机状况的例子中,如果有计算机进入了死循环,它的CPU负载很高,但没有很多网络流量,可以将两者的比值作为一个新特征来考虑这种情况。
在这里插入图片描述

课时129 多变量高斯分布(选修)
在下图的例子中,可以看出x1CPU负载与x2内存用量大致呈现线性分布,在蓝色圈里的数据是正常的,但是高斯分布不会意识到这一点,高斯分布认为的概率是紫色圈分布的,解决这个问题的办法是多元高斯分布(多元正态分布)。
在这里插入图片描述
在这里插入图片描述
大Sigma是协方差,紫色圈住的是行列式,在octave中命令是det.
在这里插入图片描述
在这里插入图片描述
多元高斯分布可以给数据的相关性建立模型:下图等高线分布在y=x线上,捕捉到了x1与x2呈正相关
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

课时130 使用多变量高斯分布的异常检测(选修)
将多变量高斯分布应用到异常检测中:在这里插入图片描述
在这里插入图片描述
多元高斯分布与普通高斯分布的比较:普通高斯分布的等高线图是轴对称的,轴指x1轴或x2轴;多元高斯分布的等高线图的对称轴是有角度的。普通高斯分布是一种特殊的多元高斯分布,Sigma的非对角线元素全的0的多元高斯分布是普通高斯分布。
在这里插入图片描述
如何选择原始高斯分布vs多元高斯分布:原始高斯分布被用的更多,可以通过创建组合特征来捕捉异常的组合值。当m很大而n不是很大时,多元高斯分布更值得考虑,可以节省手动创建额外变量的时间。
在这里插入图片描述
当用多元高斯分布发现Sigma不可逆时,一般原因有两种,一种是没有满足m远大于10n,另一种是存在冗余特征,也就是高度相关的特征。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值