本示例说明了对真实数据集进行鲁棒协方差估计的必要性,它对于离群点检测和更好地理解数据结构都是有用的。 我们从波士顿住房数据集(Boston housing data set)中选择了两组两个变量作为例子,以说明可以使用几种离群值检测工具进行哪种分析。出于可视化的目的,我们处理二维示例,但应注意的是,高维度并非不重要。 在下面的两个例子中,主要结果是经验协方差估计作为一种非鲁棒估计,受观测数据的异质结构(heterogeneous structure)的影响很大。虽然鲁棒协方差估计能够集中在数据分布的主要模式上,但它坚持假设数据应该是服从高斯分布的,从而产生了对数据结构的一些有偏估计,但在一定程度上仍然是准确的。单类支持向量机(One-Class SVM)不假设数据分布的任何参数形式,因此可以更好地对数据的复杂形状进行建模。
离群点检测方法_使用python+sklearn实现在真实数据集上进行离群点检测
最新推荐文章于 2024-05-03 22:38:29 发布