异常检测
文章平均质量分 96
一一张xi
这个作者很懒,什么都没留下…
展开
-
【异常检测】task 5 高维异常
目录1、引言2. Feature Bagging3. Isolation Forests4. 总结参考文献1、引言在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战,对距离的计算,聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性,但是,在高维空间中,所有点对的距离几乎都是相等的(距离集中),这使得一些基于距离的方法失效。在高维场景下,一个常用的方法是子空间方法。集原创 2021-05-23 22:40:47 · 93 阅读 · 0 评论 -
【异常检测】task4 基于相似度的方法
目录1. 概述2. 基于距离的度量2.1 基于单元的方法2.2 基于索引的方法基于密度的度量3.1 k距离(k-distance(p))3.2 k邻域3.3 可达距离(reachability distance)3.4 局部可达密度(local reachability density)3.5 局部异常因子1. 概述 关于“异常”的定义需要结合具体的义务背景和环境来具体分析确定数据中包含正常数据、噪声和异常,噪声可以被认为特性较弱的异常值,没有被分析的价值。异常值通常具有更高的离群程度分数值,同原创 2021-05-19 16:13:11 · 362 阅读 · 0 评论 -
【异常检测】task3 线性模型
目录1. 引言1. 引言 真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,这被称为——回归建模,一种参数化的相关性分析一类相关性分析试图通过其他变量预测单独的属性值,如线性回归另一类方法用一些潜在变量来代表整个数据,例如主成分分析 需要明确的是,这里有两个重要的假设:假设一:近似线性相关假设。线性相关假设是使用两种模型进行一场检测的重要理论基础。假设2:子空间假设。子空间假设认为数据是镶嵌在低维子空间中的,线原创 2021-05-16 22:08:23 · 186 阅读 · 0 评论 -
【异常检测】task2 基于统计学的方法
目录1.概述2、参数方法2.1 基于正态分布的一元异常点检测2.2 多元异常点检测2.3 使用混合参数分布3. 非参数方法3.1 使用直方图检测异常点1.概述统计学方法对数据的正常性做出假定。它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。即利用统计学方法建立一个模型,然后考虑对象有多大可能符合原创 2021-05-13 10:54:09 · 86 阅读 · 0 评论 -
【异常检测】task1 概述
目录1. 什么是异常检测1.1 异常的类别1.2 异常检测任务分类1.3 异常检测场景2. 异常检测常用方法2.1 传统方法2.1.1 基于统计学的方法2.1.2 线性模型2.1.3 基于相似度的方法2.2 集成学习方法2.1.1 Feature bagging2.1.2 孤立森林2.3 机器学习3. 异常检测专用库1. 什么是异常检测异常检测(Outlier Detection),顾名思义,是识别与正常数据不同的数据,与预期行为差异大的数据。识别如信用卡欺诈,工业生产异常,网络流里的异常(网络侵入原创 2021-05-08 16:04:33 · 293 阅读 · 1 评论