异常值检测(outlier)

本文介绍了使用Python进行异常值检测的重要性,特别是在大数据背景下。通过Kaggle上的Expedia数据集,展示了如何利用KMeans、PCA、IsolationForest、SVM和EllipticEnvelope等方法检测价格异常值。首先解释了Pandas库在数据分析中的作用,然后探讨了数据结构如Series、DataFrame和Panel。文章还提到了matplotlib库在绘制时间序列图中的应用,以及Pyplot模块在2D图表绘制中的功能。
摘要由CSDN通过智能技术生成

使用python进行异常值(outlier)检测
什么是异常值?
在统计学中,异常值是值不属于某一特定群体的数据点。它是一个与其他数据大不相同的异常数据,与良好构成的数据组相背离。
异常值的检测(outlier)是一种数据挖掘过程,用于确定数据集中发现的异常值并确定其出现的详细信息。训练数据中含有异常值,通过相关算法找到训练数据的中心模式,忽略偏差观测值,从而检测出异常值。无论是通过识别错误还是主动预防,检测异常值对任何业务都是重要的。当前自动异常检测至关重要,因为大量数据无法用手动标记异常值。自动检测具有广泛的应用,例如信用卡欺诈检测,系统健康监测,故障检测以及传感器网络中的事件检测系统等。 我们的数据kaggle你可以在这里 下载 。 Expedia是全球最大的在线旅行社(OTA,类似我们的携程网),它每天为数百万旅行购物者提供搜索服务其中包括用户在Expedia网站上搜索酒店的相关信息,如国家,地区,房型,价格,入住天数,入住时间等信息。 我们想通过这个数据集来检测其中价格的异常值。今天我们通过使用python来实现异常值的自动检测系统的实战开发。我们将会使用以下技术来实现异常检测值的检测:

  • KMean
  • PCA
  • IsolationForest
  • SVM
  • EllipticEnvelope
import pandas as pd#1
import numpy as np#2
import matplotlib.dates as md#3
import matplotlib
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

旗妍

你的打赏是对我最大的鼓励

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值