Reading:Think Outside the Dataset: Finding Fraudulent Reviews using Cross-Dataset Analysis-CSDN博客

本文链接：https://blog.csdn.net/qq_34620855/article/details/115733810

摘要

first paragraph

恶意评论者 & 误导性商家占用了顾客与商家的双向沟通渠道—> 评论

方法：OneReview 定位虚假评论

关联多个数据包

利用 Change Point Analysis 分析企业声誉转换点

多个网站对同一商家评论的不同趋势 —> suspicious reviews.
从可以评论中提取文本以及上下文信息并运用监督的机器学习方法来检测出 fraudulent reviews.

second paragraph

实验结果：
我们分别对Yelp和TripAdvisor的805K和462K条评论进行了OneReview评估，以查找Yelp上的欺诈行为。
有监督机器学习产生了很好的效果，97%的准确率。 —> 效果显著
我们将创建的模型应用于可疑评论，并检测到约62K条欺诈性评论（约占所有Yelp评论的8%）。
我们进一步分析了检测到的欺诈性评论及其作者，并定位了几个垃圾邮件活动异常猖獗 in the wild ，
包括针对特定企业的活动，以及由数百个社交网络不可信帐户组成的活动。

前言

others’

热评网站（Yelp\TripAdvisor\Google\Foursquare）–> 评论and打分当地商家
商家诱导顾客好评（reward）对手商家的枪手

others’

之前的方法使用有监督的机器学习方法 only foucus on 文本和stylometry特征计量文体学特征
而且他们的 ground truth data is also not large and comprehensive 支撑性数据不够详尽

最后他们的工作假定了一种有限的攻击模型：an attacker’s activity is assumed to be found near sudden shifts in the data, or they only try to detect positive campaigns.
最后，这些工作假设一个有限的攻击者模型，例如，攻击者的活动被假定在数据的突然变化附近被发现，或者他们只尝试检测积极的活动。

This Paper

摘要方法 OneReview 独立网站相互关联数据找虚假评论

Intuition ：基于成本考虑–> 不可能对同一家企业在多个网站进行评论以影响其声誉
支持元数据不可定制：Even in the case of machine-generated reviews explored in [47, 49], the text generated by these systems may be customized, but the supporting metadata is not.
成本： Even when reviews can be purchased as a service [41, 44], these services charge more to target additional review sites.

View

OneReview：关注孤立的反常的来定位恶意的行为而不依靠特定的模式

Intuition : a business’s reputation should not be very different in multiple review sites;

OneReview utilizes Change Point Analysis method on the reviews of every business independently on every website, and then uses our proposed Change Point Analyzer to evaluate change-points, detect those that do not match across the websites, and identify them as suspicious.
Then, it uses supervised machine learning, utilizing a combination of textual and metadata features to locate fraudulent reviews within the set of suspicious reviews.

OneReview使用Change Point Analysis方法对每个网站上的每个商家进行独立的审查，然后使用我们提出的Change Point Analyzer来评估变化点，检测跨网站不匹配的变化点，并将其识别为可疑。
然后，它使用有监督机器学习，利用文本和 元数据 特征的组合来定位可疑评论集中的欺诈评论。

View-Evaluation

两个评论站： Yelp(主) 和 TripAdvisor（铺–>为验证虚假评论提供依据）
寻找Yelp上的虚假评论 obtained Yelp reviews through the Yelp Data Challenge
used our Change Point Analyzer to correlate this with data crawled
from TripAdvisor

Since realistic, varied ground truth data is not currently available,
we used a combination of our change point analysis and crowd-labeling(。。。) to create a set of 5,655 labeled reviews.

View-Evaluation-Res

使用K交叉验证评估模型（k=5） on our ground truth and obtained
97% (+/- 0.01) accuracy, 91% (+/- 0.03) precision and 90% (+/- 0.06)
recall.
Then the model was used on the suspicious reviews, which classified 61,983 reviews, about 8% of all reviews, as fraudulent.

further

我们进一步发现了由特定企业主动发起或针对特定企业的欺诈活动。
我们发现有3980家企业有欺诈性评论，以及14910个可疑的垃圾邮件账户，其中至少40%的评论被归类为欺诈。
我们还使用 community detection algorithms 来定位几个large astroturfing campaigns.

威胁模型

假设对手公司会采用各种手段来来改变企业声誉（正面or反面）
假设对手可以利用服务的普通注册用户可用的任何功能或行为，包括创建帐户、发布评论、添加社交连接等等。
假设对手可能会泄露合法用户的账户，或者雇佣一些用户发布欺诈性评论

对手可能会知道了解OneReview，并作出应对：在不同的网站上发布相同的评价
However, there is a trade-off between costs and benefits.

由于对手需要避免被每个评论网站检测到，以及OneReview本身检测到，因此它需要在所有网站上平等地使用复杂和昂贵的技术，这使得它无利可图。

评论数据

两大网站。。
网站特点：搜寻商家；公司基本信息（reputation 评论）；评级；反馈

Yelp:

数据来自9th Yelp Data Challenge

7地的餐馆评论 1.4m reviews 16k restaurants 469k users

metadata about business, reviews, and users.

TripAdvisor:
7地餐馆 crawled 2017.03

          656k reviews  10k restaurants 305k users

various metadata about each review, reviewer, and business.

数据初识

TripAdvisor higher than 4.11 ratings more > Yelp 3.76

overall star ratings 可能会产生误导；

However, it can be helpful to compare the trends in this data

设计OneReview系统

OneReview

obtaining data
matching businesses
identifying inconsistent and suspicious change points in star trends
extracting textual and contextual features
employing supervised machine learning to detect fraudulent reviews
detecting fraud campaigns

数据集关联（同一店家）

商家信息不完善

匹配算法：

一对多 Set（a site: 一个餐馆 b site: 有相似地址）

第一步：
M-Set:(b网站上的同一地域的商家 with similar address)
Any restaurant in site B with an address similar to bA is added to the set of possible matches M.
similar:
a. zip codes equal or misssing(邮政编码)
b. house numbers equal or misssing
c. Jaccard相似系数超过阈值OR any of their street names is missing.
第二步：
a site 一家餐馆与集合M中所有餐馆比较餐馆名称的Jaccard相似系数超过阈值

算法要求

最好精度 precision 以避免错误的比较（不同商家的区分）

7*100家样本地址阈值0.3 名称阈值0.3 匹配率：100%

The smaller dataset, Tripadvisor, includes about 10K businesses, and we could successfully match about 60% of them to the Yelp businesses.

匹配数据

Our final Yelp dataset after matching 6,068 businesses includes
805,608 reviews, and 341,399 reviewers, while our final TripAdvisor
dataset includes 462,820 reviews, and 234,577 reviewers.

比较趋势

assumption: 同一时间窗口内（不同sites）商家信誉变化趋势一致（because of Intuition）
OneReview 变化趋势： change points: mean（均值）, variance（方差）, correlation（相关性）, or spectral density（谱线密度）

问题：并不是所有的商家以相同的频率（每天，每月）接受评论；或者以固定的频率接受评论
解决：计算每月数据的均值
权衡：在发现对业务有实际影响的可疑评论和没有有效的变更点分析之间

发现change points

处理：每个生成评分时间序列 a: yelp b:TripAdvisor （作为change points analysis的输入）

The most common method is MeanVar PELT, a multichange point method, which leverages both mean and variance.

原始数据(商家信誉月序列)：S(s1,s2…,sn)
初步处理：

change points analysis methods: MeanVar PELT

penalty parameter: {p, log(n), 0.5log(n)} 控制检测的敏感度

n：the num of data points (len(s))
p：derived from an “elbow” plot

penalty 越大越不敏感检测到的可疑评论越少

OneReview存储{change points; directions(positive,negative)}

发现可疑change points

Change Point Analyzer 评估不同网站的变化点以定位可疑变化点以及导致可以变化的评论

该评估方法基于多种方案

实施

change direction 是否一致

数据缺失处理相邻时间窗口比较

CPA 识别出可疑改变点 26835， 61817 penalty value=p , 0.5log(n)

OneReview 会找到导致可疑改变点的评论标为可以评论

可疑评论后续处理----> 机器学习识别

特征选取

文本上下文特征{评论者,商家}

新增特征：

“Author Overall Review Distribution,” 评论者整体评论分布
“Author Fresh Review Distribution,” 评论者最新评论
“Author Star Similarity,” 评论者评论相似度
“Overall Author Usefulness,” 整体评论者可用性
“Fresh Author Usefulness,” 最新评论者可用性
“Business star similarity” 商家评论相似度

定义

r: reviews rtext rdate
A( r ) author who post the review
B( r ) business

R(A) A发布的评论
Af A的朋友

评论基本特征

TF：语句中的词频
IDF:如果包含词条t的文档越少, IDF越大，则说明词条具有很好的类别区分能力。某一特定词语的IDF，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取对数得到。
TF-IDF：倾向于过滤掉常见的词语，保留重要的词语

n-grams(n元模型) 提取TF-IDF值高于0.5的文本的6K bi-grams（2元文本）和168 uni-grams（1元文本）
Similarity Score(相似度)： MinHash algorithm
Sentiment(情感)：过分夸张的情感往往意味着欺骗 Natural Language Toolkit处理（积极，中性，负面）
文本长度： log（len(rtext)+1）前人：短评论一般虚假此处：yelp上的长评论比较有效
评论可用性： ruseful^0.5 ruseful:the num of userful votes received by others Intuitively, useful votes are a gauge of the perceived review quality and trustworthiness

评论者基本特征

Author Overall Review Stars Distribution：最大似然估计来衡量评论者评分分布和所有评论相似性
Author “Fresh” Review Stars Distribution：同一个月最新的评论与所有评论之间的相似度（评分）
Friend Count: log(|A®f|+1) spam have fewer friends
Elite Score: Yelp评论站自身特性 --》标识评论者的可信度 ‘用户评论时间和成为精英之间的差距’
Author Review Count : log（|R(A)|+1）
Author Star Similarity: |rstars - average(R(A)) |一条评论的评分和总体评论评分的相似性
Overall Author Usefulness: log（|Usefulness(A)|+1 ）
Fresh Author Usefulness: 来自最新评论的有用

商家基本信息

Business Overall Review Stars Distribution: 商家所有评论的评分与商家B评分的相似性
Business Fresh Review Stars Distribution: 所有评论与B的最新评论的相似性
Business Star Similarity: |rstas - average(R(B))| 一条评论评分和商家B所有评论的平均评分的相似性

分类

使用有监督的机器学习根据提取的特征进行分类欺骗or真实

采用随机数[11,20] because: 在过度拟合的抵抗力和理解特征重要性方面的广泛应用

为了验证我们的分类，我们应用k-交叉验证，并使用得到的模型对欺诈性评论进行分类。

支撑真时数据集

get ground truth dataset corpus: combination of human workers and algorithm
One major advantage: text and metadata

获取带有欺骗标签的数据

379条yelp非推荐

841条评论：379条yelp “not recommended 评论” which was specified by yelp（目的：yelp过滤虚假、骚扰、歧视信息的评论）
crawled on 2017.03 . yelp 数据集发布两个月后. 识别出了1341条评论

我们提供了379个不推荐的评论，这些评论也是在change point analysis中发现的可疑评论。

370条重复评论

虚假：同一网站 yelp-to-yelp ,what’s more, authors are different.
不考虑： yelp-to-TripAdvisor TripAdvisor-to-yelp （跨网站用户识别）; 字符少于100的重复评论（有可能确实会有相同的短评）

92条贴有虚假标签的评论

为了找到那些仅仅是重复的，或者已经被Yelp算法标记的评论，我们使用Amazon Mechanical Turk（AMT）进行了一项研究，以识别欺诈性评论。

调查设计

We created a pool of 1,700 Human Intelligence Tasks (HITs).

每个HIT会有展示给workers 5个不同评论；并有他们确定分类（强欺骗\可信，欺骗\可信，不可分辨）
每人（Turker）提交一次

调查结果

人工分辨虚假信息准确度—> 4个人对同一条评论意见一致则为最终结果

Ultimately, from 1,700 reviews, we obtained 92 fraudulent reviews.

获取带有真实标签的数据

有用的精英评论

46k

metadata: useful & elite
To be more cautious, we obtained reviews that are tagged as useful at least 3 times.

来自现实生活中的熟人的评论

614条

yelp倾向于给长评详细的评论以 “有用”标签；故而利用论文作者的yelp社交圈补足614条评论

Unbalanced数据集

现实中真假数据比（yelp） 4:1

故而：we create a more realistic ground truth dataset with a genuine-to-fraudulent ratio of 4:1

we sampled 4,200 useful review by Elites.
Our final benign ground truth dataset is created by union of these samples,
Benign = Benign{elite, useful} ∪ Benign{connections},
including 4,814 reviews.

评价

分类表现

K=5 trees=100

The classifier successfully detects fraudulent reviews with
high accuracy (97%), precision (91%) and recall (90%).

根据结果得知：表现不会因为different number of trees or 交叉验证折数
We picked Gini impurity to measure the quality of a split, and used bootstrapping when building trees.
我们挑选了基尼杂质来衡量分裂，并在建树时使用自举法。

该实验对比只使用文本信息作为特征的准确率堪忧

We also tested various subsets of features however,
none reached the same level of performance

上下文信息有用，but 我们使用数据时(数据的初步整理) similarity,review Usefulness, Elite Score,

克服了数据比例失调（首先尽量拟合现实比例4:1）采用了SMOTE算法

转变点分析的影响

与Yelp评论相比

检查欺诈活动？

作用应用

一人或多人控制多个账号发布评论以影响商家信誉控评

不可信账户{}

不可信账户

作用应用

OneReview does not simply identify every reviewer with one review as a untrustworthy account.
Moreover, 14,910 of them are mainly posting fraudulent reviews with more than 40% of their
reviews being fraudulent.