Introduction
我最新的数据科学项目涉及预测特定商店中每种产品的销售情况。 有几种方法可以解决这个问题。 但无论我使用哪种型号,我的准确度分数都不会提高。
我花了一些时间检查数据后才发现问题 - 异常值!
这是我们经常忽略的一个错误。诱惑是开始根据您给出的数据建立模型。但这实际上是让自己陷入失败之中。
数据探索没有捷径可走。如果您跳过数据科学项目的这个阶段,构建模型只会让您到目前为止。经过一段时间后,您将达到准确度上限 - 模型的性能不会让步。
数据探索包括许多因素,例如变量识别,处理缺失值,特征工程等。检测和处理异常值也是数据探索阶段的主要因素。输入的质量决定了输出的质量!
PyOD是一个用于检测数据中异常值的库。它提供对20多种不同算法的访问,以检测异常值,并兼容Python 2和3.绝对的宝石!
在本文中,我将带您了解异常值以及如何使用Python中的PyOD检测异常值。
本文假设您具有机器学习算法和Python语言的基本知识。 你可以参考这篇文章 - “