异常检测
文章平均质量分 80
L1315382539
这个作者很懒,什么都没留下…
展开
-
异常检测——TASK 05 高维数据的异常检测
1、引言在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战,对距离的计算,聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性,但是,在高维空间中,所有点对的距离几乎都是相等的(距离集中),这使得一些基于距离的方法失效。在高维场景下,一个常用的方法是子空间方法。一个物体可能有几个被测量的量,这个物体的显著异常行为可能只反映在这些量的一小部分中。也即,一小部分的测量原创 2021-01-24 23:37:38 · 159 阅读 · 0 评论 -
异常检测——TASK 04 基于相似度的方法
这里画图解释一下上面说的L1,L2邻居:我们可以根据以上的一些人为定义,结合上面的图观察到以下三条性质:单元格中两点之间的距离最多为D/2 。(如下图d=2时)一个点与 L1邻接点之间的距离最大为 D。一个点与它的 Lr 邻居(其中 r >2)中的一个点之间的距离至少为 D。下面是代码部分:...原创 2021-01-21 23:05:07 · 273 阅读 · 2 评论 -
异常检测——TASK 02 基于统计学的方法
找了个图帮助理解https://blog.csdn.net/qq_40771567/article/details/108400598下面是对应的一元异常点检测的编程实现:(部分代码修改自上面链接中)import numpy as np import seaborn as sns import matplotlib.pyplot as plt # 随机生成的数据data = np.random.randn(50000)*50 + 20 sns.boxplot(data=data).原创 2021-01-15 17:28:35 · 176 阅读 · 0 评论 -
异常检测——TASK 01异常检测概述
1、什么是异常检测异常检测(Outlier Detection),顾名思义,是识别与正常数据不同的数据,与预期行为差异大的数据。识别如信用卡欺诈,工业生产异常,网络流里的异常(网络侵入)等问题,针对的是少数的事件。1.1 异常的类别点异常:指的是少数个体实例是异常的,大多数个体实例是正常的,例如正常人与病人的健康指标;上下文异常:又称上下文异常,指的是在特定情境下个体实例是异常的,在其他情境下都是正常的,例如在特定时间下的温度突然上升或下降,在特定场景中的快速信用卡交易;群体异常:指的是在群体集合原创 2021-01-12 11:36:59 · 428 阅读 · 0 评论