传统离群点检测致力于侦测出偏离数据集中绝大多数对象的对象,例如经典的LOF、OPTICS等算法,均会给出待检测数据集中每个对象一个离群值。某个对象的离群值越低,其越不可能是离群点。反之亦然。
但这些算法未考虑一个问题,即数据集中对象未来进一步发展变化的情况。例如,若待检测数据集是WDBC数据集,每个对象在数据集建立完成后,其是否患有乳腺癌已经确定。但对于那些正常对象,其在未来的一段时间内,仍是具有转换为离群点的可能性的。传统检测算法并未探讨这类问题。
综上所述,我认为传统检测算法过分追究对象的离群程度的判定,而忽视了一个基本的现实问题:“一个数据集中的对象,既有可能从正常对象转换为离群点,也有可能从离群点转换为正常对象”。
沿着这个思路继续进行思考,对于一个给定的数据集,除了用outlier detection algorithm给其判定一个离群值,是否还可以给出该对象未来进一步转换为离群点或者正常点的可能性的值??即,除了想知道给定数据集中哪些对象是离群点,还想知道他们的偏向值。即在未来某时间段内转换为另一类对象的概率值。
计算出这样的概率值是否有意义??建立符合该想法的数据集是否过于困难?如何将该想法结合到实际中?
任何一个离群点都不是独立存在的,其一定与其他数据对象或多或少存在着某种联系!!!
人之初,性本恶。可将每个数据对象都看作是离群的,然后依照某种规则将其划分为正常点。