u013250861
这个作者很懒,什么都没留下…
展开
-
异常值检测算法():3sigma模型
那么异常值检测的思路就很清晰了,抽取一个月的数据,计算出置信区间,也就是说如果某天的排放量不在这个区间内,那么就可以说这天的值只有5%是一天正常的排放量,可能性很小那么就认为它是异常值。做企业污染源检测,为了检测传感器是否正常,或者企业排放污染异常,你需要对传感器值做异常值的检测,假设企业每天排放污染是独立的,那么就可以使用简单粗暴的3sigma模型来检测。通过图可以观察出,本月的排放还是挺符合正态分布的。如果不紧密,与真实值的距离就会大,准确性当然也就不好了,不可能想象离散度大的方法,会测出准确的结果。原创 2023-06-16 10:43:23 · 1427 阅读 · 0 评论 -
14种异常检测方法汇总(附代码)!
换一句话说,重构误差其实主要来自较小的特征值对应的特征向量方向上的信息。One-Class SVM又一种推导方式是SVDD(Support Vector Domain Description,支持向量域描述),对于SVDD来说,我们期望所有不是异常的样本都是正类别,同时它采用一个超球体,而不是一个超平面来做划分,该算法在特征空间中获得数据周围的球形边界,期望最小化这个超球体的体积,从而最小化异常点数据的影响。所以,最大特征值对应的特征向量为数据方差最大的方向,最小特征值对应的特征向量为数据方差最小的方向。原创 2023-03-24 09:46:36 · 478 阅读 · 0 评论 -
异常检测算法(一):Kmeans聚类【把数据聚集为几个簇,再计算每个元素至簇中心的距离,最后选择最远距离的几个点视为异常值】【在低维数据上效果不错,在高维数据上表现欠佳(高维数据降维后丢失关键信息)】
kmeans函数把数据聚集为几个簇,然后再计算每个元素至簇中心的距离,最后选择最远距离的几个点视为异常值。原创 2023-02-21 21:01:35 · 487 阅读 · 0 评论 -
标准化流(Normalizing Flow)
剑桥大学在读博士Janosh Riebesell收集的。原创 2023-02-03 09:47:18 · 352 阅读 · 0 评论 -
异常检测:综述(基本都是无监督算法)【时间序列算法:AR/MA/ARMA】【传统机器学习算法:孤独森林、One Class SVM】【深度学习算法:AutoEncoder、LSTM、DeepLog】
对时间序列数据异常检测的算法选择策略:算法的选择不是随意的,也不是漫无目的地试错获得的。而是通过对业务和数据了解后,初选多个候选算法,然后通过训练和评估选择最优组合。稳定序列(stationary series):可直接使用机器学习算法(孤独森林,SVM等)和深度算法(DeepLog、Auto-Encoder等)。非稳定序列(non-stationary series):可直接使用时间序列模型(AR/MA/ARMA/ARIMA/Holt winters等)和深度算法;也可以进行下面处理后再使用无监督机原创 2022-04-21 23:18:13 · 2675 阅读 · 0 评论 -
异常检测:检测方法分类【基于统计学的方法:max/min/mean、3∂原则、箱型图】【基于聚类的方法:KNN、BIRCH、DBSCAN】【专用的异常点检测算法:PyOD库】
一、什么是异常值?在机器学习中,异常检测和处理是一个比较小的分支,或者说,是机器学习的一个副产物,因为在一般的预测问题中,模型通常是对整体样本数据结构的一种表达方式,这种表达方式通常抓住的是整体样本一般性的性质,而那些在这些性质上表现完全与整体样本不一致的点,我们就称其为异常点,通常异常点在预测问题中是不受开发者欢迎的,因为预测问题通产关注的是整体样本的性质,而异常点的生成机制与整体样本完全不一致,如果算法对异常点敏感,那么生成的模型并不能对整体样本有一个较好的表达,从而预测也会不准确。从另一方面来说,原创 2022-04-21 19:00:36 · 1037 阅读 · 0 评论 -
异常检测算法(一):孤立森林(Isolation Forest)【无监督算法的异常检测,可以快速检测数据集中的异常值】【一般用于连续型结构化数据的异常检测】【西瓜书作者周志华老师的团队研究开发的算法】
孤立森林是一种简单但非常有效的算法,能够非常快速地发现数据集中的异常值。理解这个算法对于处理表格数据的数据科学家来说是必须的,所以在本文中将简要介绍算法背后的理论及其实现。由于其算法非常的简单并且高效,所以 Scitkit Learn 已经将其进行了高效的实现,我们可以直接调用使用。但在直接进入示例之前,还是需要介绍其背后的理论,这样才可以深入的了解该算法的。一、概述1、什么是异常异常(异常值)可以描述为数据集中与其他数据或观察结果显著不同的数据点。发生这种情况的原因有几个:异常值可能表示错误数原创 2022-04-21 19:06:23 · 2775 阅读 · 1 评论 -
异常检测算法(二):OneClassSVM【严格讲,不是outlier检测方法,而是novelty检测方法】【但数据维度很高或对相关数据分布没任何假设情况下,也可作为一种很好的outlier检测方法】
OneClassSVM两个功能:无监督异常值检测;解决非平衡样本分类;在做非平衡样本分类的问题时,其中如果有一类比例严重失调,就可以直接用这个方式来做:OneClassSVM;OneClassSVM还有一个功能就是异常值检测。scikit-learn官网:2.7. Novelty and Outlier Detection严格地讲,OneClassSVM不是一种outlier detection方法,而是一种novelty detection方法:它的训练集不应该掺杂异常点,因为模型可能会去原创 2022-04-23 19:15:53 · 2898 阅读 · 0 评论 -
异常检测算法(三):稳健协方差(Robust Covariance)【基于协方差的稳健估计,假设数据是高斯分布的,那么在这样的案例中执行效果将优于One-Class SVM】
Robust Covariance (Minimum Covariance Determinant) 是 sklearn 提供的求离群点数据的例子中出现过。目的是在于通过 EllipticEnvelope(contamination=0.25) 求给定数据集的协方差矩阵。经验协方差有时候由于种种原因,并不使用全部的样本数据计算协方差矩阵,而是利用部分样本数据计算,这时候就要考虑利用部分样本计算得到的协方差矩阵是否和真实的协方差矩阵相同或者近似。当提供的样本数目相对于特征数足够多时,利用最大似然估计(原创 2022-04-23 20:18:16 · 1426 阅读 · 0 评论 -
异常检测算法(四):高斯混合模型(GMM)
高斯混合模型 (GMM) 是一种机器学习算法。它们用于根据概率分布将数据分类为不同的类别。高斯混合模型可用于许多不同的领域,包括金融、营销等等!这里要对高斯混合模型进行介绍以及真实世界的示例、它们的作用以及何时应该使用GMM。高斯混合模型 (GMM) 是一个概率概念,用于对真实世界的数据集进行建模。GMM是高斯分布的泛化,可用于表示可聚类为多个高斯分布的任何数据集。高斯混合模型是一种概率模型,它假设所有数据点都是从具有未知参数的高斯分布的混合中生成的。......原创 2022-08-11 20:14:41 · 2801 阅读 · 0 评论 -
不平衡分类(一)-综述:imblearn/imbalanced-learn库【提供了许多重采样技术,常用于显示强烈类间不平衡的数据集中】【降采样、过采样(SMOTE )】
一、imblearn/imbalanced-learn库的简介imblearn/imbalanced-learn是一个python包,它提供了许多重采样技术,常用于显示强烈类间不平衡的数据集中。它与scikit learn兼容,是 scikit-learn-contrib 项目的一部分。1、imblearn/imbalanced-learn库的安装pip install imblearnpip install imbalanced-learnpip install -U imbalanced-le原创 2022-04-23 23:08:35 · 1383 阅读 · 0 评论 -
不平衡分类(二)-过采样(SMOTE)【Synthetic Minority Over-Sampling Technique ,“人工少数类过采样法“】
SMOTE的全称是Synthetic Minority Over-Sampling Technique 即“人工少数类过采样法”,非直接对少数类进行重采样,而是设计算法来人工合成一些新的少数样本。一、SMOTE原理1、SMOTE步骤__1.选一个正样本红色圈覆盖2、SMOTE步骤__2.找到该正样本的K个近邻(假设K = 3)3、SMOTE步骤__3.随机从K个近邻中选出一个样本绿色的4、SMOTE步骤__4.在正样本和随机选出的这个近邻之间的连线上,随机找一点。这个点就是人工合成的新正原创 2022-04-23 23:15:43 · 3440 阅读 · 0 评论 -
异常检测:TODS工具库(与PyOD类似)【包含多种时间序列上的异常检测算法】
异常检测:TODS工具库(与PyOD类似)【包含多种时间序列上的异常检测算法】原创 2022-05-25 11:00:11 · 1073 阅读 · 0 评论 -
异常检测:PyOD工具库(含SUOD库)【包括近30种常见的异常检测算法:ABOD、HBOS、IForest、KNN、LOF、OCSVM、PCA等】【Outlier detection (OD) 】
pyod(Python Outlier Detection)是一个集成了30余种异常检测方法和模型的Python工具箱。从经典的 LOF (SIGMOD 2000) 到近两年的 COPOD (ICDM 2020) 和 SUOD (MLSys 2021) 。一、pyod概述特性丰富的模型,从 scikit-learn 中的经典算法,到近期的深度学习算法,以及诸如 COPOD 的新兴算法。兼容 Python2 和 Python3。pyod对所涵盖的各种异常检测算法提供了统一的API,便于学习和使用。原创 2022-04-23 20:43:39 · 2502 阅读 · 0 评论 -
特征选择:最大信息系数(MIC;Maximal Information Coefficient)【用于衡量两个变量X和Y之间的关联程度,线性或非线性的强度,常用于机器学习的特征选择】
1.1 MICMIC,即(Maximal Information Coefficient)最大信息系数,属于Maximal Information-based Nonparametric Exploration (MINE) 最大的基于信息的非参数性探索,用于衡量两个变量X和Y之间的关联程度,线性或非线性的强度,常用于机器学习的特征选择。1.2 互信息互信息(Mutual Information)是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机原创 2022-06-29 00:23:01 · 2051 阅读 · 0 评论 -
皮尔逊相关系数(Pearson correlation coefficient)
在统计学中,皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correlation coefficient,简称 PPMCC或PCCs),是用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。一、函数介绍在自然科学领域中,皮尔逊相关系数广泛用于度量两个变量之间的相关程度,其值介于-1与1之间。它是由卡尔·皮尔逊从弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而原创 2022-04-24 23:27:23 · 3079 阅读 · 0 评论