异常检测
文章平均质量分 57
无价攻城狮
不认输的卷心菜
展开
-
task_4
Task04 决定系数:R2(R-Square):R2方法是将预测值跟只使用均值的情况下相比,看能好多少。其区间通常在(0,1)之间。0表示还不如什么都不预测,直接取均值的情况,而1表示所有预测跟真实结果完美匹配的情况。 R方一个综合评估的指标,可以理解为因变量y中的变异性能能够被估计的多元回归方程解释的比例,它衡量各个自变量对因变量变动的解释程度,分母理解为原始数据的离散程度,分子为预测数据和原始数据的误差,二者相除可以消除原始数据离散程度的影响.其取值在0与1之间,其值越接近1,则变量的解释程度原创 2021-10-24 22:58:30 · 158 阅读 · 0 评论 -
Task_5
Task_5基于集成方法的异常检测 Feature Bagging、孤立森林 子空间思想:在高维场景下的集成,利用多个算法在子集的表现,把模型方法结合起来。 Feature Bagging:1.选择基检测器,2.分数标准化和组合方法 注意: 基探测器的设计及其组合方法都取决于特定集成方法的特定目标。很多时候,我们无法得知数据的原始分布,只能通过部分数据去学习。除此以外,算法本身也可能存在一定问题使得其无法学习到数据完整的信息。这些问题造成的误差通常分为偏差和方差两种。 方差:是指算法输出结果与算法输出期望原创 2021-05-24 02:57:03 · 57 阅读 · 0 评论 -
Task_4
Task_4:异常检测算法之基于邻近度 在异常检测中,我们弱化了“噪声”和“正常数据”之间的区别,专注于那些具有有价值特性的异常值。在基于相似度的方法中,主要思想是异常点的表示与正常点不同。 假设:异常点的 kkk 近邻距离要远大于正常点。 当数据量比较大时,这样计算是及不划算的。 因此,需要修剪方法以加快距离计算。 什么是单元格方法:具体地说,每个维度被划分成宽度最多为 xx单元格。在给定的单元以及相邻的单元中存在的数据点满足某些特性,这些特性可以让数据被更有效的处理。 网格单元的数量基于数据原创 2021-05-21 02:21:00 · 53 阅读 · 0 评论 -
Task_3
Task_3 机器学习算法中的搜索算法 梯度下降 随机梯度下降 小批量梯度下降 牛顿梯度下降 目标:min损失函数 我们的优化目标是要求得在误差最小的情况下模型参数的值,我们希望在这个数据上面寻找模型参数来使模型的预测价格与真实价格的误差最小。 基于线性回归的异常检测 异常检测中并不会对任何变量给与特殊对待,异常值的定义是基于基础数据点的整体分布,因此需要采用一种更一般的回归建模:即以相似的方式对待所有变量,通过最小化数据对该平面的投影误差确定最佳回归平面。 原理推导 值得注意的是,对异常得分的大部分贡献是原创 2021-05-18 02:38:40 · 107 阅读 · 0 评论 -
Task_02
Task_2:基于统计学的方法 问题1:非参数方法的直方图 怎么构造 如何检测 判断正常与异常的依据是啥? 基于角度的思想: 角度思想顾名思义,依据角度去判断异常与正常数据。角度又是什么角度,它是指数据间的角度,是三个或以上的数据点连线构成的角度。 如果其中有个点与另外两个点构成的角度非常小,小是相对于内部数据点的角度大且方向多,那么异常数据也就可以学习到。 对于如何数学推导,证明待补 HBOS 相对于角度算法,时间复杂度比较小,对于大型数据集比较友好原创 2021-05-15 02:03:54 · 62 阅读 · 0 评论 -
Task_01
异常检测基本概念与方法 1.比如基于模型方法的异常检测:异常检测是一种技术,一般首先建立一个数据模型,对于不能完美拟合或偏离模型非常远的数据很可能是异常的。 2.高斯分布特点:高斯分布是自然界最常见的分布形态,用它来做异常检测是非常合适的模型。枪打出头鸟,那些分布在两端的小概率事件,要么好的出奇(右边),要么差得离谱(左边)。 3.异常检测场景(补充): . 在工业制造。比如某个制造飞机引擎的公司,从飞机引擎提取出一系列的特征值,并且训练出一个模型。当新制造出来的引擎符合这个模型时,就可认为是良品,原创 2021-05-12 01:37:39 · 85 阅读 · 0 评论