- 博客(4)
- 收藏
- 关注
原创 Task 4 基于邻近度的方法
本笔记内容包括: 概述 基于距离的方法 基于密度的方法 Python实战 1、概述 “异常”通常是一个主观的判断,什么样的数据被认为是“异常”的,需要结合业务背景和环境来具体分析确定。实际上,数据通常嵌入在大量的噪声中,而我们所说的“异常值”通常指具有特定业务意义的那一类特殊的异常值。噪声可以视作特性较弱的异常值,没有被分析的价值。噪声和异常之间、正常数据和噪声之间的边界都是模糊的。异常值通常具有更高的离群程度分数值,同时也更具有可解释性。 在普通的数据处理中,我们常常需要保留正常数据,而
2021-05-20 00:14:50 243
原创 Task 3 线性模型
本笔记内容包括: 异常检测关于线性模型的理论知识 实操Pyhton代码 1、引言 真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,这被称为——回归建模,一种参数化的相关性分析。一类相关性分析试图通过其他变量预测单独的属性值,代表是线性回归。另一类方法用一些潜在变量来代表整个数据,典型是主成分分析。本文将会用这两种典型的线性相关分析方法进行异常检测。 需要明确的是,这里有两个重要的假设: 假设一:近似.
2021-05-17 01:30:22 166
原创 Task 2 基于统计学的方法
1、概述 统计学方法对数据的正常性做出假定。**它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。**统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。 异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。 即利用统计学方法建立一个模型,然后考虑对象有多大可能符合该模型。 根据如何指定和学习模型,异常检测的统计学方法可以划分为两个主要类型:参数方法和非参数方法。 参数方法假定正常的数据对象被一
2021-05-13 18:19:30 223
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人