Reading:Think Outside the Dataset: Finding Fraudulent Reviews using Cross-Dataset Analysis

摘要

first paragraph

恶意评论者 & 误导性商家 占用了 顾客与商家的双向沟通渠道—> 评论

方法:OneReview 定位 虚假评论

关联多个数据包

利用 Change Point Analysis 分析企业声誉转换点

多个网站对同一商家评论的 不同趋势 —> suspicious reviews.
从 可以评论中提取 文本以及上下文信息 并运用 监督的机器学习方法 来检测出 fraudulent reviews.

second paragraph

实验结果:
我们分别对Yelp和TripAdvisor的805K和462K条评论进行了OneReview评估,以查找Yelp上的欺诈行为。
有监督机器学习产生了很好的效果,97%的准确率。 —> 效果显著
我们将创建的模型应用于可疑评论,并检测到约62K条欺诈性评论(约占所有Yelp评论的8%)。
我们进一步分析了检测到的欺诈性评论及其作者,并定位了几个垃圾邮件活动 异常猖獗 in the wild
包括针对特定企业的活动,以及由数百个社交网络不可信帐户组成的活动。

前言

others’

热评网站(Yelp\TripAdvisor\Google\Foursquare)–> 评论and打分 当地商家
商家 诱导顾客好评(reward)对手商家的枪手

others’

之前的方法使用有监督的机器学习方法 only foucus on 文本和stylometry特征 计量文体学特征
而且他们的 ground truth data is also not large and comprehensive 支撑性数据不够详尽

最后他们的工作假定了一种 有限的攻击模型:an attacker’s activity is assumed to be found near sudden shifts in the data, or they only try to detect positive campaigns.
最后,这些工作假设一个有限的攻击者模型,例如,攻击者的活动被假定在数据的突然变化附近被发现,或者他们只尝试检测积极的活动。

This Paper

摘要方法 OneReview 独立网站相互关联数据 找 虚假评论

  • Intuition : 基于成本考虑–> 不可能对同一家企业在多个网站进行评论以影响其声誉
  • 支持元数据不可定制:Even in the case of machine-generated reviews explored in [47, 49], the text generated by these systems may be customized, but the supporting metadata is not.
  • 成本: Even when reviews can be purchased as a service [41, 44], these services charge more to target additional review sites.

View

OneReview: 关注孤立的反常的 来定位 恶意的行为而不依靠特定的模式

  • Intuition : a business’s reputation should not be very different in multiple review sites;
OneReview utilizes Change Point Analysis method on the reviews of every business independently on every website, and then uses our proposed Change Point Analyzer to evaluate change-points, detect those that do not match across the websites, and identify them as suspicious.
Then, it uses supervised machine learning, utilizing a combination of textual and metadata features to locate fraudulent reviews within the set of suspicious reviews.
  • OneReview使用Change Point Analysis方法对每个网站上的每个商家进行独立的审查,然后使用我们提出的Change Point Analyzer来评估变化点,检测跨网站不匹配的变化点,并将其识别为可疑。
  • 然后,它使用有监督机器学习,利用 文本元数据 特征的组合来定位可疑评论集中的欺诈评论。

View-Evaluation

两个评论站: Yelp(主) 和 TripAdvisor(铺–>为验证虚假评论提供依据)
寻找Yelp上的虚假评论 obtained Yelp reviews through the Yelp Data Challenge
used our Change Point Analyzer to correlate this with data crawled
from TripAdvisor

Since realistic, varied ground truth data is not currently available,
we used a combination of our change point analysis and crowd-labeling(。。。) to create a set of 5,655 labeled reviews.

View-Evaluation-Res
  • 使用K交叉验证评估模型 (k=5) on our ground truth and obtained
    97% (+/- 0.01) accuracy, 91% (+/- 0.03) precision and 90% (+/- 0.06)
    recall.

  • Then the model was used on the suspicious reviews, which classified 61,983 reviews, about 8% of all reviews, as fraudulent.

further

我们进一步发现了由特定企业主动发起或针对特定企业的欺诈活动。
我们发现有3980家企业有欺诈性评论,以及14910个可疑的垃圾邮件账户,其中至少40%的评论被归类为欺诈。
我们还使用 community detection algorithms 来定位几个large astroturfing campaigns.

相关工作

文本与元数据特征

早起的技术已经使用了多种机器学习和特征的混合来定位 fraudulent reviews.
Mostly rely on textual and stylometry features.

Jindal and Liu 首先使用 meta-data features to detect fraudulent reviews on Amazon.

OneReview uses 一些推荐的特征(若可用)

Considerable work tried to identify the spam accounts, using regression models, heterogeneous graphs, unsupervised anomaly detection, and behavioral models .
OneReview uses user-related metadata features, but does not make any such assumptions about the users in question.

大量的工作试图通过回归模型、异构图、无监督异常检测和行为模型来识别垃圾邮件帐户。

OneReview使用了与用户相关的元数据特性,但没有对相关用户做出任何这样的假设.

时态数据检测虚假数据

使用 虚假评论的发送者(spam 垃圾邮箱) 和 时间and空间信息 之间的联系
使用 大量评论来建立可疑模式

OneReview 的两大优势
  1. OneReview可以通过比较其他网站上的模式,消除潜在的误报,来区分对业务总体得分有重大影响的评论是否真的可疑
  2. 我们的威胁模型既考虑了总体评论得分,也考虑了评论的近期影响。

真实数据的获取 Ground Truth Creation

有监督的机器学习 标签数据获取 初始训练集

早期:
重复的评论作为虚假的信息
让人们来写虚假的评论

不能在商业网站中反应虚假评论的动态性

now 论坛数据 不在可用

our dataset (see Section 6) contains data that is user-labeled, not user-generated, and additionally contains reviews chosen based on social graph information, and duplicate reviews.

用户标签的数据 而非 用户直接生成的数据 另外包含基于社交图信息筛选的评论和重复评论

威胁模型

  1. 假设对手公司会采用各种手段来来改变企业声誉(正面or反面)
  2. 假设对手可以利用服务的普通注册用户可用的任何功能或行为,包括创建帐户、发布评论、添加社交连接等等。
  3. 假设对手可能会泄露合法用户的账户,或者雇佣一些用户发布欺诈性评论

对手可能会知道了解OneReview,并作出应对:在不同的网站上发布相同的评价
However, there is a trade-off between costs and benefits.

由于对手需要避免被每个评论网站检测到,以及OneReview本身检测到,因此它需要在所有网站上平等地使用复杂和昂贵的技术,这使得它无利可图。

评论数据

两大网站 。。
网站特点: 搜寻商家;公司基本信息(reputation 评论) ; 评级;反馈

Yelp:

数据来自9th Yelp Data Challenge

7地的餐馆评论 1.4m reviews 16k restaurants 469k users

metadata about business, reviews, and users.

TripAdvisor:
7地餐馆 crawled 2017.03

          656k reviews  10k restaurants 305k users

various metadata about each review, reviewer, and business.

数据初识

TripAdvisor higher than 4.11 ratings more > Yelp 3.76

overall star ratings 可能会产生误导;

However, it can be helpful to compare the trends in this data

设计OneReview系统

OneReview

  1. obtaining data
  2. matching businesses
  3. identifying inconsistent and suspicious change points in star trends
  4. extracting textual and contextual features
  5. employing supervised machine learning to detect fraudulent reviews
  6. detecting fraud campaigns

数据集关联(同一店家)

商家信息不完善

匹配算法:

一对多 Set(a site: 一个餐馆 b site: 有相似地址 )

第一步:
M-Set:(b网站上的同一地域的商家 with similar address)
Any restaurant in site B with an address similar to bA is added to the set of possible matches M.
similar:
a. zip codes equal or misssing(邮政编码)
b. house numbers equal or misssing
c. Jaccard相似系数超过阈值OR any of their street names is missing.
第二步:
a site 一家餐馆与 集合M中所有餐馆比较 餐馆名称的Jaccard相似系数 超过 阈值

算法要求

最好 精度 precision 以避免错误的比较 (不同商家的区分 )

7*100家样本 地址阈值0.3 名称阈值0.3 匹配率:100%

The smaller dataset, Tripadvisor, includes about 10K businesses, and we could successfully match about 60% of them to the Yelp businesses.

匹配数据

Our final Yelp dataset after matching 6,068 businesses includes
805,608 reviews, and 341,399 reviewers, while our final TripAdvisor
dataset includes 462,820 reviews, and 234,577 reviewers.

比较趋势

assumption: 同一时间窗口内(不同sites)商家信誉变化趋势一致 (because of Intuition)
OneReview 变化趋势: change points: mean(均值), variance(方差), correlation(相关性), or spectral density(谱线密度)

问题: 并不是所有的商家以相同的频率(每天,每月)接受评论;或者以固定的频率接受评论
解决:计算每月数据的均值
权衡:在发现对业务有实际影响的可疑评论和没有有效的变更点分析之间

发现change points

处理:每个生成评分时间序列 a: yelp b:TripAdvisor (作为change points analysis的输入)

The most common method is MeanVar PELT, a multichange point method, which leverages both mean and variance.

原始数据(商家信誉月序列):S(s1,s2…,sn)
初步处理:

change points analysis methods: MeanVar PELT

penalty parameter: {p, log(n), 0.5log(n)} 控制检测的敏感度

n:the num of data points (len(s))
p:derived from an “elbow” plot

penalty 越大越不敏感 检测到的可疑评论越少

OneReview存储{change points; directions(positive,negative)}

发现可疑change points

Change Point Analyzer 评估不同网站的变化点以定位可疑变化点以及导致可以变化的评论

该评估方法基于多种方案

实施

change direction 是否一致

数据缺失处理 相邻时间窗口比较

CPA 识别出可疑改变点 26835, 61817 penalty value=p , 0.5log(n)

OneReview 会找到导致 可疑改变点的 评论 标为可以评论

可疑评论后续处理----> 机器学习识别

特征选取

文本上下文特征{评论者,商家}

新增特征:

  • “Author Overall Review Distribution,” 评论者整体评论分布
  • “Author Fresh Review Distribution,” 评论者最新评论
  • “Author Star Similarity,” 评论者评论相似度
  • “Overall Author Usefulness,” 整体评论者可用性
  • “Fresh Author Usefulness,” 最新评论者可用性
  • “Business star similarity” 商家评论相似度
定义

r: reviews rtext rdate
A( r ) author who post the review
B( r ) business

R(A) A发布的评论
Af A的朋友

评论基本特征

TF:语句中的词频
IDF:如果包含词条t的文档越少, IDF越大,则说明词条具有很好的类别区分能力。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。
TF-IDF:倾向于过滤掉常见的词语,保留重要的词语

  • n-grams(n元模型) 提取TF-IDF值高于0.5的文本的6K bi-grams(2元文本) 和168 uni-grams(1元文本)
  • Similarity Score(相似度): MinHash algorithm
  • Sentiment(情感): 过分夸张的情感 往往意味着 欺骗 Natural Language Toolkit处理(积极,中性,负面)
  • 文本长度: log(len(rtext)+1) 前人:短评论一般虚假 此处:yelp上的长评论比较有效
  • 评论可用性: ruseful^0.5 ruseful:the num of userful votes received by others Intuitively, useful votes are a gauge of the perceived review quality and trustworthiness
评论者基本特征
  • Author Overall Review Stars Distribution: 最大似然估计来衡量评论者评分分布和所有评论相似性
  • Author “Fresh” Review Stars Distribution: 同一个月最新的评论与所有评论之间的相似度 (评分)
  • Friend Count: log(|A®f|+1) spam have fewer friends
  • Elite Score: Yelp评论站自身特性 --》标识评论者的可信度 ‘用户评论时间和成为精英之间的差距’
  • Author Review Count : log(|R(A)|+1)
  • Author Star Similarity: |rstars - average(R(A)) |一条评论的评分和总体评论评分的相似性
  • Overall Author Usefulness: log(|Usefulness(A)|+1 )
  • Fresh Author Usefulness: 来自最新评论的 有用
商家基本信息
  • Business Overall Review Stars Distribution: 商家所有评论的评分与商家B评分的相似性
  • Business Fresh Review Stars Distribution: 所有评论与B的最新评论的相似性
  • Business Star Similarity: |rstas - average(R(B))| 一条评论评分和商家B所有评论的平均评分的相似性

分类

使用有监督的机器学习根据提取的特征进行分类 欺骗or真实

采用随机数[11,20] because: 在过度拟合的抵抗力和理解特征重要性方面的广泛应用

为了验证我们的分类,我们应用k-交叉验证,并使用得到的模型对欺诈性评论进行分类。

支撑真时数据集

get ground truth dataset corpus: combination of human workers and algorithm
One major advantage: text and metadata

获取带有欺骗标签的数据

379条yelp非推荐

841条评论:379条yelp “not recommended 评论” which was specified by yelp(目的:yelp过滤虚假、骚扰、歧视信息的评论)
crawled on 2017.03 . yelp 数据集发布两个月后. 识别出了1341条评论

我们提供了379个不推荐的评论,这些评论也是在change point analysis中发现的可疑评论。

370条重复评论

虚假:同一网站 yelp-to-yelp ,what’s more, authors are different.
不考虑: yelp-to-TripAdvisor TripAdvisor-to-yelp (跨网站用户识别); 字符少于100的重复评论(有可能确实会有相同的短评)

92条贴有虚假标签的评论

为了找到那些仅仅是重复的,或者已经被Yelp算法标记的评论,我们使用Amazon Mechanical Turk(AMT)进行了一项研究,以识别欺诈性评论。

调查设计

We created a pool of 1,700 Human Intelligence Tasks (HITs).

每个HIT会有展示给workers 5个不同评论;并有他们确定分类(强欺骗\可信,欺骗\可信,不可分辨)
每人(Turker)提交一次

调查结果

人工分辨虚假信息准确度—> 4个人对同一条评论意见一致则为最终结果

Ultimately, from 1,700 reviews, we obtained 92 fraudulent reviews.

获取带有真实标签的数据

有用的 精英评论

46k

metadata: useful & elite
To be more cautious, we obtained reviews that are tagged as useful at least 3 times.

来自现实生活中的熟人的评论

614条

yelp倾向于给长评详细的评论以 “有用”标签;故而利用论文作者的yelp社交圈补足614条评论

Unbalanced数据集

现实中真假数据比(yelp) 4:1

故而:we create a more realistic ground truth dataset with a genuine-to-fraudulent ratio of 4:1

we sampled 4,200 useful review by Elites.
Our final benign ground truth dataset is created by union of these samples,
Benign = Benign{elite, useful} ∪ Benign{connections},
including 4,814 reviews.

评价

分类表现

K=5 trees=100

The classifier successfully detects fraudulent reviews with
high accuracy (97%), precision (91%) and recall (90%).

根据结果得知: 表现不会因为different number of trees or 交叉验证折数
We picked Gini impurity to measure the quality of a split, and used bootstrapping when building trees.
我们挑选了基尼杂质来衡量分裂,并在建时使用自举法

该实验对比只使用文本信息作为特征的准确率堪忧

We also tested various subsets of features however,
none reached the same level of performance

上下文信息有用,but 我们使用数据时(数据的初步整理) similarity,review Usefulness, Elite Score,

克服了数据比例失调(首先尽量拟合现实比例4:1)采用了SMOTE算法

转变点分析的影响

与Yelp评论相比

检查欺诈活动?

作用 应用

一人或多人控制多个账号发布评论以影响商家信誉 控评

不可信账户{}

不可信账户

作用 应用

OneReview does not simply identify every reviewer with one review as a untrustworthy account.
Moreover, 14,910 of them are mainly posting fraudulent reviews with more than 40% of their
reviews being fraudulent.

This can indicate untrustworthy accounts
who post legitimate reviews in an attempt to avoid the detection.

针对特定商家的活动

作用 应用

在3980家有欺诈性评论的企业中,
501家和344家分别只收到正面和负面的欺诈性评论。

社交网络的欺诈活动

欺诈账户互为好友

OneReview does not consider the structure of the social network as a feature,
still it can detect fraudulent reviews posted by fraud campaigns.

我们构建了不可信账户的社交网络显示: 16738节点 24909边 (高度关联)

进一步使用 Louvain community detection algorithm 发现
前五个社区有诈骗节点:1671、1428、1385、565、539
社区内高度集中

We found some patterns that can indeed distinguish them as untrustworthy accounts.

虚假评论者常用词 such as “definitely”, “great” or “really.”

例如:“love” 2 times “like”

局限

  • 混合数据源帮助减少bias 尽管仍存在一些,但很难处理
  • Change Points Analyzer 月数据 延迟性(缺少数据)

This parameter can be adjusted, even at the granularity of a single business, when higher-frequency data is available.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值