异常检测
文章平均质量分 92
DataVVhale
这个作者很懒,什么都没留下…
展开
-
异常检测_第五部分_高维异常
本章内容为高维异常检测。 在实际场景中,经常会遇到几十上百维的数据。以工业生产数据为例,由于涉及到生产制造环节的流程与设备数以百计。同时,3C产品本身又有着数目众多的数据维度产出。这样实际场景中的高维数据中,维度爆炸和数据稀疏数据不平衡问题是致命性的。高维异常检测算法在实际场景中有着极为重要的应用需求和意义。 文章目录1、引言2、Feature Bagging3、Isolation Forests4、总结 1、引言 在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的大小(体积)会以指数级别增长原创 2021-01-25 00:09:04 · 105 阅读 · 0 评论 -
异常检测_第四部分_基于相似度的方法
异常检测——基于相似度的方法 本章主要涉及基于相似度的异常检测算法,包含基于距离与基于密度的两种度量。 基于相似度的异常检测算法通常包括: KNN 异常点的K近邻距离通常更大 LOF, LOCI, LoOP, CLOF 异常点所在空间的数据点少,密度低 大部分异常检测算法都可以被认为是一种估计相似度,无论是通过密度、距离、夹角或是划分超平面。通过聚类也可以被理解为一种相似度度量。 文章目录异常检测——基于相似度的方法1、概述2、基于距离的度量2.1 基于单元的方法2.2 基于索引的方法3原创 2021-01-21 20:16:30 · 182 阅读 · 0 评论 -
异常检测_第三部分_线性模型
线性回归 在线性回归中,我们假设不同维度的变量具有一定的相关性,并可以通过一个相关系数矩阵进行衡量。因此对于特定的观测值,可以通过线性方程组来建模。在实际应用中,观测值的数量往往远大于数据的维度,导致线性方程组是一个超定方程,不能直接求解。因此需要通过优化的方法,最小化模型预测值与真实数据点的误差。 线性回归是统计学中一个重要的应用,这个重要的应用往往是指通过一系列自变量去预测一个特殊因变量的值。在这种情况下,异常值是根据其他自变量对因变量的影响来定义的,而自变量之间相互关系中的异常则不那么重要。这原创 2021-01-18 22:53:40 · 147 阅读 · 0 评论 -
异常检测_第二部分_基于统计学的方法
基于统计学的异常检测方法最早是在Andrew的课程里接触到的。案例为飞机引擎制造场景的异常检测问题。基于高端制造业优质的数据质量和完备的标准体系,该场景可以通过生产设备简简单单的两个维度数据,基于高斯分布统计模型,达到接近完美的结果。 以下为基于统计学的方法介绍 ================================= 异常检测——基于统计学的方法 主要内容包括: 高斯分布 箱线图 文章目录异常检测——基于统计学的方法1、概述2、参数方法3、非参数方法4、HBOS5、总结 1、概述 统计学方原创 2021-01-15 23:31:14 · 169 阅读 · 0 评论 -
异常检测_第一部分
1、什么是异常检测 异常检测(Outlier Detection),顾名思义,是识别与正常数据不同的数据,与预期行为差异大的数据。 识别如信用卡欺诈,工业生产异常,网络流里的异常(网络侵入)等问题,针对的是少数的事件。 异常检测: 数据不平衡下的分类问题 1.1 异常的类别 点异常:指的是少数个体实例是异常的,大多数个体实例是正常的,例如正常人与病人的健康指标; 上下文异常:又称上下文异常,指的是在特定情境下个体实例是异常的,在其他情境下都是正常的,例如在特定时间下的温度突然上升或下降,在特定场景中的快速信原创 2021-01-12 22:05:09 · 184 阅读 · 0 评论