今晚读了Jiawei Han团队的一篇paper,就网络社群的异常点检测算法进行了学习。传统的发现算法归结为全局异常点检测算法和直接相邻异常点检测算法,韩的方法是基于“信息+社区结构”的Community Outlier Detection Algorithm,后面试试看是否可借用来识别特定事件的网络水军群体。
根据Jing Gao, Jaiwei Han等人发表的On community Outliers and their Efficient Detection in Informaiton Networks文章,传统的网络社区异常点检测算法(Community Outlier Detection Algorithm),包括不考虑网络结构的全局异常点检测算法(GLobal Outlier Detection Algorithm,GLODA)和仅考虑直接邻近关系的直接相邻异常点检测算法(Driect Neighbor Outlier Detection Algorithm,DNODA)。
文章中认为,很多人通常采用社区异常点检测算法是两阶段法,首先将社区网络划分为若干子社区,然后在每个子社区里面识别异常点,此方法被称为社区相邻法(Community Neighbor Algorithm,CNA),这种方法在文章看来是”Naive”的。
一些聚类的方法被设计出来(T. Yang, R. Jin, Y. Chi, and S. Zhu. Combining link and content for community detection: a discriminative approach. In Proc. of KDD'09, pages 927~936, 2009.),利用数据和链接信息,将信息网络中的Nodes划分为几个社区,但这些聚类方法往往基于网络中无异常点的假设,因此并不能用来发现离群点。