![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
异常检测
文章平均质量分 70
容光@October
研究数理金融与金融工程、衍生产品定价、精算理论、风险投资
展开
-
关于布匹检测的问题
我在群文件里面看到有两个框架做布匹检测问题,tensorflow和pytorch里面代码有一些看不懂,也不太清楚什么是baseline?什么样的提交的结果叫很好?import tensorflow as tfimport tensorflow.keras.backend as Kfrom tensorflow.keras.layers import *from tensorflow.keras.models import *from tensorflow.keras.optimizers imp原创 2021-02-21 23:35:04 · 274 阅读 · 1 评论 -
高维数据的异常检测
随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战,对距离的计算,聚类都带来了难题。在高维空间中,所有点对的距离几乎都是相等的(距离集中),这使得一些基于距离的方法失效。集成是子空间思想中常用的方法之一,可以有效提高数据挖掘算法精度。集成方法将多个算法或多个基检测器的输出结合起来。其基本思想是一些算法在某些子集上表现很好,一些算法在其他子集上表现很好,然后集成起来使得输出更加鲁棒。集成方法与基于子空间方法有着天然的相似性,子空间与原创 2021-01-24 16:23:49 · 170 阅读 · 0 评论 -
基于相似度的方法
“异常”通常是一个主观的判断,需要结合业务背景和环境来具体分析确定。噪声和异常之间、正常数据和噪声之间的边界都是模糊的。异常值通常具有更高的离群程度分数值,同时也更具有可解释性。嵌套循环第一层循环遍历每个数据,第二层循环进行异常判断,需要计算当前点与其他点的距离,一旦已识别出多于 个数据点与当前点的距离在 之内,则将该点自动标记为非异常值。这样计算的时间复杂度为 ,当数据量比较大时,这样计算是及不划算的。 因此,需要修剪方法以加快距离计算。基于单元的方法在基于单元格的技术中,数据空间被划分为单元格原创 2021-01-21 23:44:41 · 158 阅读 · 0 评论 -
线性模型
一类相关性分析试图通过其他变量预测单独的属性值,另一类方法用一些潜在变量来代表整个数据。前者的代表是 线性回归,后者一个典型的例子是 主成分分析。假设一:近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。假设二:子空间假设。子空间假设认为数据是镶嵌在低维子空间中的,线性方法的目的是找到合适的低维子空间使得异常点(o)在其中区别于正常点(n)。数据可视化最小二乘法梯度下降法数据集监督学习一般靠数据驱动。我们通常收集一系列的真实数据,例如多栋房屋的真实售出价格和它们原创 2021-01-18 23:22:31 · 166 阅读 · 0 评论 -
基于统计学方法
异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。----相当于假设检验参数方法假定正常的数据对象被一个以 为参数的参数分布产生。该参数分布的概率密度函数 给出对象 被该分布产生的概率。该值越小, 越可能是异常点。非参数方法并不假定先验统计模型,而是试图从输入数据确定模型。非参数方法通常假定参数的个数和性质都是灵活的,不预先确定(所以非参数方法并不是说模型是完全无参的,完全无参的情况下从数据学习模型是不可能的)。如果数据点超原创 2021-01-15 23:37:03 · 206 阅读 · 0 评论