![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
组队学习笔记
文章平均质量分 88
关于异常数据处理的学习
poorlytechnology
好好学习
天天向上
展开
-
异常检测4
task4:基于邻近度的方法 1基于距离的度量 基于距离的异常检测有一个前提假设,即异常点的k近邻距离要远大于正常点。一般使用嵌套循环就可以实现。第一层遍历每个数据,第二层循环进行异常判断,需要计算当前点到其他点的距离,一旦已识别出多于k个点与当前点的距离在D内,则将该点标记为非异常点。这样计算的实间复杂度为O(N*(N-1))。当数据量较大时,需要修剪方法以加快距离的计算。 1.1基于单元格的方法 在基于单元格的方法中,数据空间被划分为单元格,单元格的宽度是阈值D和数据维数的函数。具体地说,每个维度被划分原创 2021-05-21 01:15:25 · 169 阅读 · 0 评论 -
异常检测3
task3:线性相关方法 1前言 真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往由相同的基础过程以密切相关的方式产生的。在古典统计学中这被称为回归建模,一种参数化的相关性分析。一类相关性分析试图通过其他变量预测单独的属性值,另一类用一些潜在变量来代表整个数据。前者的代表是线性回归,后者的一个典型例子是主成分分析。 需要明确的是,这里有两个重要的假设: 假设一:近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。 假设二:子空间假设。子空间假设认为数据是镶嵌在低维子原创 2021-05-17 21:13:54 · 127 阅读 · 0 评论 -
异常检测2
task2:基于统计学的异常检测 1.概念 异常检测的统计学方法有两种: 参数方法:假定数据对象由以Θ为参数的参数分布产生,该参数分布的概率密度函数f给出对象x在该分布下出现的概率,该概率值越小,说明是异常值的可能性越大。 非参数方法:不假定先验统计模型,从输入数据确定模型。非参数方法并非无参数,其通常假定参数的个数和性质都是灵活的,不预先确定。 2.参数方法 2.1基于正态分布的一元异常点检测 首先,假定数据分布符合正态分布,然后通过输入数据学习正态分布的参数,并把低概率的点作为异常点。 下面是通过输入来原创 2021-05-14 23:21:24 · 280 阅读 · 0 评论 -
异常检测1
task1:异常检测相关概念 1.概念 异常检测:根据领域的不同又不同的概念,如,对于数据处理,就是检测异常数据;对于图像处理就是检测出异常图片;在工业上,对于零部件的检测等等,都属于异常检测。 以数据处理为场景,异常可以分为多个类别,点异常、条件异常与群体异常。 点异常:指个别数据的异常 条件异常:又称上下文异常,是指在特定条件下个体实例出现异常,在其他条件下是正常的,比如,在特定时间下的温度突然上升或下降 群体异常:群体集合中的个体实例出现异常的情况,而该个体实例自身可能不是异常 2.异常检测方法 2.原创 2021-05-11 22:47:25 · 114 阅读 · 0 评论