水军检测问题整理
摘要
水军问题由来已久,水军检测问题一直非常重要。水军检测问题主要面临的困难包括但不限于:源数据难以获取;水军标定规则太主观;水军检测涉及的特征难以规范化表达等。目前对水军检测的工作以图计算和神经网络训练两种方式为主。我们目前的工作集中在用CNN实现水军的检测。由于水军特征繁杂,涉及了至少图结构处理,自然语言处理,数值处理三个维度,且数据会面临维度缺失等数据不规范的问题,难以直接转换到CNN网络所能识别的输入。基于这个问题,我们提出了PDL算法,将各个维度数据做了有机整理,以二维矩阵的形式输入CNN网络,达到了水军检测的目前可知的最高准确率。
相关工作
Review Graph Based Online Store Review Spammer Detection 率先提出了基于graph 的检测算法,合理利用了用户间,用户店铺间,店铺之间的信息,打破了基于语义分析的垄断地位,提供了新的识别思路。
Graph-based review spammer group detection完全的图分析算法,目标分类是群组分类,深度利用了图论知识,提供了良好的评价指标。特点是:划分群组,给每个群打分,多种评估函数,可以应对不同类型群组,但缺点是图分割算法会划出一些兴趣相同的鱼龙混杂分组,需要优化分割算法
Review Spam Detection by Highlighting Potential Spammers and Diminishing Their Effect 提出了水军的五