论文Collective Opinion Spam Detection: Bridging Review Networks and Metadata(2015KDD)
目标:检测水军和虚假评论
contributions:
- 提出SPEAGLE框架来做opinion spam,这个框架结合了relational data和元数据(metadata),即结合了图、行为和文本
- 论文中图由user-review-product图构成,三种类型的结点都有标签,user:水军与否,review:虚假与否,product:为被攻击目标与否。论文用图来做分类,用metadata来估计有关节点的类分布的先验知识。(我不把review放在中间的原因是目前还没在数据集里发现完全相同的review可以连接多个product,因此就不存在PRP路径)
- SPEAGLE是完全无监督的学习方法,如果有少部分标签,也可以转换为半监督学习(SPEAGLE+)
- 探究了我们提出的特征的有效性,设计出轻量级算法SPLITE(SPEAGLE-LIGHT),只用少量的特征
方法
fraudeagle
首先介绍作者前一篇论文提出的FRAUDEAGLE框架
该方法构建user-product二部图 G = ( V , E ± ) G=(V,E^{\pm}) G=(V,E±)表示N个用户节点 U = u 1 , . . . , u N U={u_1,...,u_N} U=u1,...,uN和M个商品结点 P = p 1 , . . . , P M P={p_1,...,P_M} P=p1,...,PM
边 ( u i , p j , s ) ∈ E ± (u_i,p_j,s)\in E^{\pm} (ui,pj,s)∈E