离群点(异常)检测
文章平均质量分 81
分享离群点(异常)检测的一些知识,个人学习笔记、学习心得。
傅华涛Fu
热爱代码,热爱技术。
展开
-
读书笔记《Outlier Analysis》 第十二章 图形和网络中的异常检测
1.引言图形的表示是最强大和最通用的数据表示形式之一。这些结构被用来表示不同的数据,从多维实体关系图、web、社交网络、通信网络以及生物和化学化合物。从广义讲,在现实的领域中,出现了两种类型的图:数据可能包含许多小图,绘制在标记节点的一个小的基本域上。这种情况的一些例子包括化学和生物化合物。标签对应于化学元素,可以在同一物体或不同物体内重复。节点标签的重复在这种应用中引起了严重的计算挑战,这被称为图同构。根据数据库中正常图形对象的模型,将单个图形对象定义为异常值。因此,异常分数也与整个图形相关联原创 2021-01-21 23:16:38 · 237 阅读 · 0 评论 -
读书笔记《Outlier Analysis》 第十一章 空间数据的异常检测
1.引言空间数据是一种上下文数据类型。空间数据有两种类型的属性:行为属性:这是为每个对象测量的感兴趣属性。例如,这个属性可以对应于海面温度、风速、车速、疾病爆发次数、图像像素的颜色等等。在给定的应用程序中可能有多个行为属性。因此,在许多应用程序中,这个属性是非空间的,因为它测量给定位置的一些感兴趣的数量。然而,在一些数据类型,如轨迹,行为属性是空间的。上下文属性:在许多空间数据类型中,上下文属性是空间的,尽管在某些偶然情况下(例如上下文是时间的轨迹)它可能不是空间的。海面温度、原创 2021-01-19 23:25:21 · 835 阅读 · 0 评论 -
读书笔记《Outlier Analysis》 第一章(部分) 异常值的评估技术
注:异常值、孤立点、离群点三个术语是同一个意思。1.外部评估技术异常值一般是使用外部评估技术标准,因为大多数异常值的检测都是无监督问题。如果某个应用的异常检测是有监督的话,则其可以使用内部评估技术,所谓的内部评估技术,即可以使用标签ground-truth(或者叫做真实值)去验证预测值是否准确。由于使用外部评估技术,所以各种模型对应的评估机制是不一样的,即线性模型使用线性模型的评估技术,邻近模型使用邻近模型的评估技术。2.精确率Precision和召回率Recall(具体概念可参考简单理解原创 2021-01-19 12:37:42 · 558 阅读 · 0 评论 -
读书笔记《Outlier Analysis》 第十章 离散序列中的异常检测
1.引言第十章讨论的是连续时间序列中的异常检测。其中每个时间戳中的单个元素是离散值(即分类)。这种离散的时间序列也被称为序列。离散值时间场景出现在许多应用中,如系统诊断、入侵检测和生物应用中。在入侵检测和系统诊断等领域中,离散序列是由时间排序引起的,而在生物数据等领域,离散序列是由物理排序引起的。时间数据通常对实际场景中的分析有一个特定的方向(即时间上向前),而基于位置关系的数据可能不是这样。以下是产生离散数据序列的一些应用实例:1、系统诊断:许多自动化系统不断生成有关系统状态的数据。如原创 2021-01-19 09:17:51 · 998 阅读 · 0 评论 -
读书笔记《Outlier Analysis》 第九章 时间序列和多维流的异常检测
1、引言2、流时间序列中基于预测的异常检测3、异常形状的时间序列4、多维流的异常检测原创 2021-01-18 16:22:23 · 2416 阅读 · 0 评论 -
读书笔记《Outlier Analysis》 第八章 分类、文本和混合属性中的异常检测
1、引言2、将概率模型推广到分类数据3、将线性模型推广到分类和混合数据4、将邻近模型推广到分类数据5、二进制和事务数据中的异常检测6、文本数据中的异常检测7、总结...原创 2021-01-18 09:19:34 · 436 阅读 · 0 评论 -
读书笔记《Outlier Analysis》 第七章 有监督的异常检测
1. 引言监督异常检测的目标是赋予学习方法特定于应用程序的知识,以获得与应用程序相关的异常。这一知识往往包括此类相关异常的例子,尽管其他类型的监督也是可能的。由于异常的罕见性质,这种例子往往是有限的。这给创建健壮模型带来了挑战。然而,即使有少量的数据可供监督,它的纳入通常会显著提高异常检测的准确性。关于异常分析的一般建议是在可能的情况下始终使用监督。异常检测与分类问题的区别,主要是有以下几个具有挑战性的特征,这些特征有可能是孤立的,也有可能是组合的:1、类不平衡:由于异常值被定义为数据中的罕原创 2021-01-16 23:40:54 · 3848 阅读 · 0 评论 -
读书笔记《Outlier Analysis》 第六章 异常值的集成
其实这一章介绍的异常值的集成,是和机器学习中的集成学习是一个意思。1. 基本介绍1.1 集成方法基本介绍集成分析是提高各种数据挖掘算法精度的常用方法。集成方法将多个算法或基检测器(或称为组件检测器)的输出结果组合起来,创建一个统一的输出。该方法的思想是,一些算法在特定的点子集上会做的和那后,而其他算法在其他点子集上会做的更好。然而,集成组合通常能够更健壮地全面执行,因为它能够组合多个算法的输出。集成分析经常用于各种数据挖掘和机器学习应用,如聚类、分类、异常分析和推荐系统。 此外,它还应用原创 2021-01-15 23:33:24 · 462 阅读 · 0 评论 -
读书笔记《Outlier Analysis》 第五章 高维数据中的异常检测:子空间方法
1.基本介绍现实世界中,很多数据的维度非常高,许多传统的异常检测方法在高维数据中无法有效工作。这也叫维度灾难/维度诅咒/维度惩罚。在高维空间中,当进行全维分析时,数据变得稀疏,真正的异常值被多个不相关维数的噪声效应所掩盖。维度灾难的一个主要原因是在高维情况下,难以定义一个点的相关局部性。例如,在高维空间中,所有点对几乎是等距的。这种现象被称为数据稀疏或距离集中。而异常值是定义为稀疏区域中的数据点,这导致了一种鉴别性差的情况,即所有数据点都位于几乎相同的稀疏区域中,具有全维度。2.轴-并行子空原创 2021-01-14 23:31:36 · 2802 阅读 · 1 评论 -
基于距离的方法的二进制输出
尽管基于分数的输出比二进制输出更通用,但是它们在实际应用中的局限性超出了发现哪些点是离群值的二进制问题。 使用二进制输出的优点是可以修剪许多O(N^2)计算。 因此,仅将得分最高的点报告为离群值,我们不在乎非离群点的分数。 这可以通过指定最近邻居距离的最小阈值(分数),也可以通过在k最近邻距离的rank上使用一个最大阈值来实现。前者的参数化给分析人员带来了挑战,就是选择预先确定的绝对距离阈值的(可能是非直观的)值(这个值可以通过计算数据点样本的离群点分数,并根据这些分数的均值和标准差设置估计值)。基于.原创 2021-01-13 12:00:36 · 168 阅读 · 0 评论 -
读书笔记《Outlier Analysis》 第四章 基于邻近的异常检测
1.基本介绍基于邻近的技术是指,当一个数据点的位置或邻近是稀疏时,则将其定义为一个离群点。基于邻近的技术最常见的离群点分析的定义:基于聚类:使用非任何聚类中数据点的成员、其与其他聚类质心的距离、最近的聚类的大小或这些因素的组合来量化异常值评分。聚类问题和异常检测问题有互补关系,其中要么属于聚类,要么属于异常值。基于距离:使用数据点到其k近邻的距离来定义邻近。具有较大k近邻距离的数据点被定义为离群点。基于距离的算法通常比其他两种方法需要执行更详细的粒度。另一方面,这种更大的粒度往往需要原创 2021-01-11 23:55:25 · 3462 阅读 · 0 评论 -
读书笔记《Outlier Analysis》 第三章 异常检测的线性模型
1.线性模型的基本介绍1.1 回归模型真实数据中的属性通常是相关的。这种依赖关系提供了相互预测属性的能力。如在正常情况下,一个人的身高和体重之间具有一定的相关性;房价和房屋面积的相关性;薪资和工龄之间的相关性等。预测和异常检测的概念是密切相关的。异常值通常是在特定模型的基础上偏离预期值(预测值)的值。线性模型侧重于使用属性间依赖关系来实现这一目标,这也叫回归模型。1.2 回归建模的两种形式回归建模是相关分析的一种参数化形式。 一些形式的相关分析试图从其他自变量预测因变...原创 2021-01-11 23:01:06 · 1233 阅读 · 0 评论 -
PCA用于异常检测思路
PCA用于异常检测思路:思路①:异常数据投影在residual subspace的投影值的长度很长,当长度大于某个阈值时,即判断为异常数据。,为简单起见,以二维数据为例,如下图所示:思路②:基于重构误差。直观上说,PCA提取了数据的主要特征,如果一个数据样本不能被重构,则说明这个数据样本的特点和主要数据特征不一样,那么它就是一个异常样本。原文:https://zhuanlan.zhihu.com/p/80184695...转载 2021-01-11 20:37:50 · 2576 阅读 · 1 评论 -
读书笔记《Outlier Analysis》 第二章 异常检测的概率和统计模型
第二章 异常检测的概率和统计模型1.为什么要讲概率和统计模型?之所以一开始就讲概率和统计模型,是因为最早的异常检测方法时根植于概率和统计模型的。这些方法是在计算机技术出现和普及之前就提出的,因此设计时不太注重数据表示或计算效率等实际问题。 然而,基本的数学模型是非常有用的,并最终适应了各种计算场景。2.单变量极值单变量极值分析是异常检测中非常流行的一种方法。这种方法是确定单变量分布尾部的数据值,因为这些值往往是异常的。单变量极值也经常用在其他算法的最后一步,因为这些算法的结果通.原创 2021-01-11 11:09:10 · 1909 阅读 · 0 评论 -
【文章收藏】如何理解Z检验和T检验?
如何理解Z检验和T检验?原创 2020-12-29 10:44:02 · 724 阅读 · 0 评论 -
Mahalanobis(马哈拉诺比斯)距离
马氏距离(Mahalanobis Distance)是一种距离的度量,可以看作是欧氏距离的一种修正,修正了欧式距离中各个维度尺度不一致且相关的问题。马氏距离(Mahalanobis Distance)是由马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即.原创 2020-12-28 23:31:40 · 6920 阅读 · 1 评论 -
LOF(Local Outlier Factor):局部异常因子
局部异常因子算法(Local Outlier Factor)通过计算“局部可达密度”来反映一个样本的异常程度,一个样本点的局部可达密度越大,这个点就越有可能是异常点。用通俗的话来讲就是:若点P的局部范围内,数据点的密度越小,则点P越有可能是异常点。一、k距离邻域:表示K个数据点组成的一个邻域范围 某一点P的k距离(k-distance)很容易解释,就是点P和距离点P第k近的点之间距离,但不包括P。假设P是学校,葛小伦、刘闯、赵信、蔷薇、琪琳、炙心6个同学都住在学校附近: 图1原创 2020-12-27 22:59:10 · 4104 阅读 · 7 评论 -
【转载】对风险控制的理解
对风控的理解原创 2020-12-20 14:57:57 · 144 阅读 · 0 评论 -
异常检测算法摘录
异常点检测算法综述异常点检测算法(一)异常值检测算法(二)异常点检测算法(三)原创 2020-12-16 09:56:06 · 138 阅读 · 0 评论 -
业务过程异常检测学习资源
异常检测学习资源原创 2020-11-07 20:08:16 · 160 阅读 · 0 评论 -
outlier analysis:离群值分析
outlier analysis——第一章——概述outlier analysis—第2章之概率统计方法outlier analysis——第六章——集成异常检测原创 2020-11-07 15:49:53 · 1354 阅读 · 0 评论