异常检测
文章平均质量分 89
热爱数学的小菜鸡
这个作者很懒,什么都没留下…
展开
-
高维数据的异常检测
一、概述主要内容包括Feature Bagging孤立森林在实际场景中,很多数据集都是多维度的,随着维度的增加,数据空间的大小会以指数级别增长,使数据变稀疏。维度诅咒不止给异常检测带来了挑战,对距离的计算、聚类都带来了难度。例如,在之前介绍的基于邻近度的方法是在所有维度中使用距离函数来定义局部性,但是,在高维空间中,所有点对的距离几乎是相等的,这使得一些基于距离的方法失效。在高维场景下,一个常用的方法是子空间法。集成是子空间思想中常用的方法之一,可以有效提高数据挖掘算法精度。集成算法将多个算法或原创 2021-05-23 23:16:22 · 362 阅读 · 0 评论 -
基于近邻度的方法进行异常检测
一、概述在普通的数据处理中,我们常常需要保留正常数据,而对噪声和异常值的特性则基本忽略。但在异常检测中,我们弱化了“噪声”和“正常数据”的区别,专注于哪些具有有价值特性的异常值。在基于相似度的方法中,主要思想是异常点的表示与正常点不同二、基于距离的度量基于距离的方法是一种常见的适用于各种数据域的异常检测方法,它基于最近邻距离来定义异常值。 此类方法不仅适用于多维数值数据,在其他许多领域,例如分类数据,文本数据,时间序列数据和序列数据等方面也有广泛的应用。基于距离的异常检测有这样一个前提假设,即异常点转载 2021-05-21 00:42:12 · 3637 阅读 · 0 评论 -
基于线性模型的异常检测
一、概述真实数据集的不同维度之间具有高度的相关性。这是因为不同的属性通常由相同的底层流程以密切相关的方式生成。在经典统计文献中,这被称为回归建模。一些形式的相关分析试图从其他方面预测个体属性值,而另一种形式则以潜在变量的形式总结整个数据。后者的一个例子是主成分分析方法。这两种建模形式在离群值分析的不同场景中都非常有用。线性模型的主要假设是数据被嵌入到一个低维子空间中,在线性方法中,目标是找到低维子空间,其中离群点的行为与其他点非常不同。在本文中,我们将主要研究两类线性模型,第一类模型使用因变量和自变量原创 2021-05-17 23:06:40 · 483 阅读 · 0 评论 -
基于统计学方法的异常检测
一、概述在异常值检测中,统计建模的一种流行形式是检测极端单变量值。在这种情况下,需要确定单变量分布尾部的数据值,以及相应的统计显著水平。这似乎是一种相当有限制的情况,因为大多数多维异常值并不对应于数据值的极端值。相反,异常值通常由数据值之间的相对位置定义。虽然极端单变量值对应的是一种非常特殊的离群值,但除了单变量情况外,它们还有许多应用。这是因为几乎所有的离群点检测算法都执行某种数值评分,以测量数据点的异常程度。二、极值分析的统计方法极值分析的统计方法量化了分布尾部的概率。尾部的概率值很低,表明它内部原创 2021-05-14 23:40:04 · 1232 阅读 · 0 评论