关于离群点检测的杂想

最新推荐文章于 2023-12-17 00:30:00 发布

罗辑罗辑

最新推荐文章于 2023-12-17 00:30:00 发布

阅读量320

点赞数

分类专栏：离群点检测文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jinhualun911/article/details/106556352

版权

离群点检测专栏收录该内容

10 篇文章 7 订阅

订阅专栏

传统离群点检测致力于侦测出偏离数据集中绝大多数对象的对象，例如经典的LOF、OPTICS等算法，均会给出待检测数据集中每个对象一个离群值。某个对象的离群值越低，其越不可能是离群点。反之亦然。

但这些算法未考虑一个问题，即数据集中对象未来进一步发展变化的情况。例如，若待检测数据集是WDBC数据集，每个对象在数据集建立完成后，其是否患有乳腺癌已经确定。但对于那些正常对象，其在未来的一段时间内，仍是具有转换为离群点的可能性的。传统检测算法并未探讨这类问题。

综上所述，我认为传统检测算法过分追究对象的离群程度的判定，而忽视了一个基本的现实问题：“一个数据集中的对象，既有可能从正常对象转换为离群点，也有可能从离群点转换为正常对象”。

沿着这个思路继续进行思考，对于一个给定的数据集，除了用outlier detection algorithm给其判定一个离群值，是否还可以给出该对象未来进一步转换为离群点或者正常点的可能性的值？？即，除了想知道给定数据集中哪些对象是离群点，还想知道他们的偏向值。即在未来某时间段内转换为另一类对象的概率值。

计算出这样的概率值是否有意义？？建立符合该想法的数据集是否过于困难？如何将该想法结合到实际中？

任何一个离群点都不是独立存在的，其一定与其他数据对象或多或少存在着某种联系！！！

人之初，性本恶。可将每个数据对象都看作是离群的，然后依照某种规则将其划分为正常点。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。