Finding Deceptive Opinoin Spam by Any Stretch of the Imagination (Myle Ott Yjin Choi)

最新推荐文章于 2024-09-13 22:36:56 发布

冬己ddung

最新推荐文章于 2024-09-13 22:36:56 发布

阅读量796

点赞数

本文链接：https://blog.csdn.net/u010981582/article/details/50953052

版权

摘要

在这篇论文中，我们主要研究虚假评论垃圾信息，即是故意撰写的评论，但是伪造地像真的一样。从计算机语言学和心理学的角度，我们开发和比较了三个方法来检测虚假评论垃圾信息，并在我们的垃圾评论数据集上开发了一个准确率接近90%的分类器（结合心理学欺骗特征和n-gram）。通过这个机器学习分类器学习到特征权重。特别地，我们考虑上下文和欺骗的动机，而不单单是识别一个普通的欺骗线索的集合。所以我们把任务分为三部分：

文本分类：基于n-gram(语音识别的语言模型)分类器给评论加标签（真实，虚假）
心理学欺骗检测一个实例：例证欺骗性论述的说谎的心理效应，例如：增加的负面情绪和心理距离
类型识别的问题：将虚假评论和真实评论视为想象的和纪实的撰写的子类型

数据集构造

芝加哥地区排名前20的20个酒店收集的 800 条评论：（20条真实评论+20条虚假评论）*20个酒店

虚假评论：

利用众包服务例如AMT收集了关于那20个酒店的400条评论。他们创建了400个任务（HITs Human Intelligence Task）并做了如下规定：这些人必须是在美国并且他们在系统上的接受率必须是90%以上（类似于百度提问的回答者的采纳率），每一个人只能够提交一次评论，时限是30分钟，接受提交的评论一条1美元。

HIT给撰写人提供酒店的网址和名称。HIT要求每个撰写人假定自己是这个酒店的市场部门相关人员，而老板要求他们假装自己是顾客撰写一条假的评论，将要被放到一个旅游点评网站上。除此之外，这个评论要尽可能写的逼真并且是正面的。如果任何一条评论被发现是质量不过关（写错酒店名称，内容不好，很短，剽窃他人等等）都会被拒绝。

用了大约14天时间来手机了400条比较满意的虚假评论。

接近12%一分钟之内就提交，更令人惊讶的是，对提交的（Lt <1）的平均长度与（Lt>1）的平均长度进行独立双尾t检验，发现二者之间没有显著的差异（p=0.83）。我们怀疑是这些操作比较快的人可能之前也正式地接受过HIT,会有严格的时间限制。

真实评论：

从TripAdvisor上手机了6977条评论，我们删除了：

3130条不是五星的评论
41非英文评论
75少于150个单词的评论。通常在结构上，虚假评论一般至少是150个单词
1607条是新手评论。通常这些评论有可能是包含垃圾信息会减少我们真实评论数据的诚实度

最后，我们平衡了下真实评论和虚假评论的数量，从剩下的2124条评论中筛选出了400条，例如筛选出来的评论的文本长度要和那些虚假评论的近似。

人执行度的评估

重要性：

对于我们的分类任务没有其他的基准（分类结果好不好）
对于验证我们手机的虚假评论是必要的

我们找到三个大学生志愿者对于我们收集到的数据的一个子集进行判断。这个数据子集与我们第一次交叉验证试验相一致，包含了从4个随机选择的酒店，每个酒店有的40条评论。除此之外，为了检验哪个人的判断有偏见，我们评估了两个虚拟的评审的性能。MAJORITY是当至少有两个人判断是虚假的时候，它会认为是虚假的。SKEPTIC是当任何一个人判断是虚假的时候，它会认为是虚假的。

P(Precision)：精确度

R(Recall)：召回率

F（F-Score）

我们从上面的表中会发现人判断的不是特别的有效。对此进行双尾二元检测，发现JUDGE 2 和 JUDGE 3 （p= 0.003,0.10,0.48）的性能是随机的。更近一步地说，三个JUDGE都偏向于真。SKEPTIC分类预测的是比较均衡的，几乎完美。用Fleiss'kappa 来评估三者标注的一致性，得到是0.11。得分在(0.00,0.20]之间认为是两者之间是有轻微的一致性。JUDGE 2 和 JUDGE3 之间是0.12.三个人的一致性很低可能是因为人们对于判断虚假的能力是不足的，因为他们三个彼此之间执行起来都是互不相干。

自动检测虚假评论的方法

我们用三个方法来检测虚假评论，每个方法都用分类器来训练数据集，每个策略所用到的特征将会在这里概述

类型识别

计算机语言学的研究发现POS(part-of-speech，词性标注)的概率分布式依赖于文本的类型。当我们用类型识别方法来检测虚假评论的时候，我们基于每个POS标签的频率为每条评论构造特征，来测试在真实评论和虚假评论之间是否存在一定关系。

心理学虚假检测

LIWC(Linguistic Inquiry and Word Count)软件是一个很流行的自动分本分析工具，被广泛地应用在社会科学中。它被用来检测性格特征，分析虚假。

我们可以通脱LIWC软件产生的特征来创建分类器。LIWC将接近4500个关键词分成80个心理学层面的维度，可以被概括为一下四类：

语言：文本的功能方面（例如每个句子的词语的平均数量，拼写错误的比率）
心理学：包括所有的社会的，情感的，认知的，感性的和生物的进程还有与时间和空间的任何相关的事情
个人关心：任何提及有关工作，业余爱好，钱，宗教等
口语类别：主要是填充内容和同意的词

文本分类

我们用n-gram 特征对内容和上下文建模，特别地，我们考虑了三个 n-gram 特征集合，UNIGRAMS,BIGRAMS+，TRIGRAMS+,

分类器

从三个方法引入的特呈来训练朴素贝叶斯分类器和支持向量机分类器

朴素贝叶斯：

线性支持向量机：

我们在所有的特征集：POS, LIWC,UNIGRAMS, BIGRAMS+, TRIGRAMS+,也评估了所有的这些特征的组合。发现仅有LIWC+BIGRAMS这个组合执行地最好。在将LIWC和BIGRAMS合并之前，标准化了统一的文本长度。

结果和讨论

用了5折嵌套交叉验证来评估虚假检测策略。我们通过上表发现，自动分类器的性能要比人力分类性能好。将POSsvm作为类型识别的基准，但这个简单的自动分类器仍然优于人的判断。Rayson 的研究工作发现了想象的撰写和纪实的撰写的强大的区分差异：前者典型地包含更多的名词，形容词，介词，限定词和连词，而后者包含更多的动词，副词，代词和前缀限定词。的确，我们发现POS