离群点检测方法_使用python+sklearn实现在真实数据集上进行离群点检测

‍‍ 本示例说明了对真实数据集进行鲁棒协方差估计的必要性,它对于离群点检测和更好地理解数据结构都是有用的。 我们从波士顿住房数据集(Boston housing data set)中选择了两组两个变量作为例子,以说明可以使用几种离群值检测工具进行哪种分析。出于可视化的目的,我们处理二维示例,但应注意的是,高维度并非不重要。 在下面的两个例子中,主要结果是经验协方差估计作为一种非鲁棒估计,受观测数据的异质结构(heterogeneous structure)的影响很大。虽然鲁棒协方差估计能够集中在数据分布的主要模式上,但它坚持假设数据应该是服从高斯分布的,从而产生了对数据结构的一些有偏估计,但在一定程度上仍然是准确的。单类支持向量机(One-Class SVM)不假设数据分布的任何参数形式,因此可以更好地对数据的复杂形状进行建模。

第一个例子

第一个示例说明了在另一个聚类存在的情况下,鲁棒协方差估计是如何帮助其专注于相关聚类的。在这里,许多观察结果被混淆为一个,并分解经验协方差估计。当然,某些筛选工具会指出存在两个聚类(支持向量机,高斯混合模型,单变量离群点检测……),但是,如果这是一个高维度的例子,那么所有这些方法都很难被实际应用。

第二个例子

第二个示例显示了协方差的最小协方差行列式的鲁棒估计器专注于数据分布的主要模式的能力。尽管由于香蕉形分布难以估算协方差,但其位置却似乎得到了很好的估计。单类SVM能够捕获真实的数据结构,
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值