异常检测
文章平均质量分 89
Mrs.King_UP
一个程序媛自我成长的记录者!
展开
-
异常检测(5)—高维数据的异常检测
感想:在高维数据中,数据集是多维的(这里的维度是特征),对于距离、聚类的计算都是一个难题,基于邻近度的计算方法是对每一个维度进行距离计算,但是点对的距离相对集中((xmi,yix_{m}^{i},y^{i}xmi,yi)在第m维上距离近),这使得基于距离的计算方法失效,对于高维数据的处理,采用子空间的方法,集成方法是子空间思想中常用的一种。集成方法:将多个算法或多个基检测器的输出结合起来。其基本思想是一些算法在某些子集上表现很好,一些算法在其他子集上表现很好,然后集成起来使得输出更加鲁棒。集成方法与基原创 2021-01-24 21:47:41 · 1405 阅读 · 0 评论 -
异常检测(4)—基于相似度的方法
1.基于距离的度量方法基于距离的度量方法是基于最近邻距离来定义异常值。基于距离的异常检测有这样一个前提假设:异常点的kkk近邻距离要远大于正常点的近邻距离。解决问题的最简单方法是使用嵌套循环。 第一层循环遍历每个数据,第二层循环进行异常判断,需要计算当前点与其他点的距离,一旦已识别出多于kkk个数据点与当前点的距离在DDD之内,则将该点自动标记为非异常值。这样计算的时间复杂度为O(N2)O\left(N^{2}\right)O(N2),当数据量比较大时,这样计算是及不划算的。 因此,需要修剪方法以加快距原创 2021-01-21 22:28:09 · 1020 阅读 · 2 评论 -
异常检测(3)—线性模型
感悟:线性回归和PCA都是通过特征之间的相关性进行异常值检测的。线性回归:相关性分析试图通过其他变量预测单独的属性值进行异常值检测。特征A(特征A中的数据都是正常的)和特征B是线性相关的,可以通过A预测B的数值,如果B的真实值和B的预测值相差较大,那么B特征在该条数据样本中的取值是异常的。PCA:用一些潜在变量来代表整个数据。对所有的数据计算特征向量,异常样本距离特征向量的距离比较远。两点假设:近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。子空间假设。子空间假设认为数原创 2021-01-19 23:41:42 · 257 阅读 · 0 评论 -
异常检测(2)—基于统计学的方法
1.基于统计学的方法:概念:假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。即,利用统计学方法建立一个模型,然后考虑数据点有多大概率符合这个模型。概率越小,为异常点的可能性越大。参数方法:假定数据符合某一参数的分布,该分布的概率密度给出f(x,θ)f(x,\theta)f(x,θ),将数据点带入到概率密度公式,得出该数据点符合该分布的概率,概率越小,越不符合该分布,是异常点的可能性就越大。example:假定输入数据集,数据集中的样本符合正态分布 ,根据样本数据可以求出参数参数一原创 2021-01-13 23:21:33 · 740 阅读 · 2 评论 -
异常检测(1)—初识异常检测
初识异常检测1.概念2.类别3.应用4.方法(1)传统方法(2)集成方法(3)机器学习方法5.常用库:PyOD、Sklearn、TODS1.概念异常一般是指与标准值(预期值)有偏离的样本点,也就是跟绝大部分数据“长的不一样” 。异常往往是“有价值”的事情,我们对异常的成因感兴趣 。2.类别有监督:数据集有标签无监督:数据集无标签(异常检测往往是在无监督模式下进行的,获取的数据都是无标签的)半监督:数据集只有单一类别(正例)有标签,没有异常实例参与训练3.应用金融行业反欺诈、信用卡诈骗检原创 2021-01-13 16:35:10 · 1148 阅读 · 0 评论