异常检测
文章平均质量分 53
逆游的鲤鱼
鲤鱼经过99.99%的尝试才能换来最后一次精彩跳跃。
展开
-
异常检测学习之高维数据
感想在实际场景中,很多数据集都是多维度的。在高维空间中,所有点对的距离几乎都是相等的(距离集中),这使得一些基于距离的方法失效。在高维场景下,一个常用的方法是子空间方法。常见的方法有Feature Bagging 和孤立森林。1、Feature Bagging实现步骤:①、选择基检测器。这些基本检测器可以彼此完全不同,或不同的参数设置,或使用不同采样的子数据集。Feature bagging常用lof算法为基算法。②、分数标准化和组合方法:不同检测器可能会在不同的尺度上产生分数。例如,平均k近原创 2021-01-24 21:40:47 · 436 阅读 · 0 评论 -
异常检测学习之基于相似度的方法
感想这一节内容,没有看的特别明白。先把自己理解的部分归纳下。基于相似度的方法:就是通过一个指标来衡量同类样本具有共性归为一类,然后把少数样本分辨出来判定为异常样本。而这里的指标是距离。基于距离的方法是一种常见的适用于各种数据域的异常检测算法,它基于最近邻距离来定义异常值。 此类方法不仅适用于多维数值数据,在其他许多领域,例如分类数据,文本数据,时间序列数据和序列数据等方面也有广泛的应用。基于距离的异常检测有这样一个前提假设,即异常点的 近邻距离要远大于正常点。解决问题的最简单方法是使用嵌套循环。 第原创 2021-01-21 18:25:10 · 273 阅读 · 0 评论 -
异常检测学习之线性模型
感想假设一:近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。假设二:子空间假设。子空间假设认为数据是镶嵌在低维子空间中的,线性方法的目的是找到合适的低维子空间使得异常点(o)在其中区别于正常点(n)。基于这两点假设,在异常检测的第一阶段,为了确定特定的模型是否适合特定的数据集,对数据进行探索性和可视化分析是非常关键的。1、先可视化观察数据①、head()+tail()+shape:简略查看数据结构②、describe():来熟悉数据的相关统计量,主要是观察最大值与75%、原创 2021-01-18 21:53:33 · 232 阅读 · 0 评论 -
异常检测学习之统计学方法
感想统计学方法对数据的正常性做出假定。它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。根据如何指定和学习模型,异常检测的统计学方法可以划分为两个主要类型:参数方法和非参数方法。1、参数方法:假定正常的数据对象被一个以 为参数的参数分布产生。该参数分布的概率密度函数 给出对象 被该分布产生的概率。该值越小, 越可能是异常点。2、非参数方法:并不假定先验统计模型,而是试图从输入数据确定模型。非参数方法通常假定参数的原创 2021-01-15 19:53:50 · 281 阅读 · 0 评论 -
异常检测学习之初识异常检测
感想1、异常检测(Outlier Detection),顾名思义,是识别与正常数据不同的数据,与预期行为差异大的数据。一听这名称,给人感觉高大上,其实就是研究极少数事件,离群点研究,如识别如信用卡欺诈,工业生产异常,网络流里的异常(网络侵入)等问题。2、分类有监督:训练集的正例和反例均有标签无监督:训练集无标签半监督:在训练集中只有单一类别(正常实例)的实例,没有异常实例参与训练3、常用方法①、统计学方法:对数据的正常性做出假定。前提数据服从正态分布。学习一个拟合给定数据集的生成模型,然后识别原创 2021-01-12 19:22:54 · 291 阅读 · 0 评论