Finding Deceptive Opinion Spam by Any Stretch of the Imagination (11 ACL)

论文 Finding Deceptive Opinion Spam by Any Stretch of the Imagination(11 ACL)

文章研究虚假的spam,第一个贡献就是标注了标准的虚假评论和真实评论各400篇,组成了800篇的gold-standard数据。数据的构造过程使用了AMT(Amazon Mechanical Turk),很严谨,很靠谱!

作者是将spam识别看成一个二元分类问题,分别尝试了3种方法,并尝试了3种方法的融合(这个是第二个贡献)。

第1种方法是通过文本的风格识别(Genre identification),特征是使用POS的频率;

第2种方法是进行心理学的欺骗检测,使用的LIWC2007工具,这个工具实际是依靠关键词(keywords)的,将4500个关键词映射到80个维度上,作者最终也将这个融合到了SVM中;

第3种方法是基本的文本分类方法,可以尝试Unigram和+Bigram和+Trigram。

最终的实验结果表明,单独使用一种方法,是单纯的文本分类Unigram + Bigram(SVM)最佳;全文最佳的实验效果是使用LIWC + Unigram + Bigram(SVM)效果最佳,Accuracy达到了89.9%。

总体来说感觉作者做实验特别严谨,实验数据的构造不用说,非常牛!在做5-fold实验过程中,训练和测试的数据分别是针对不同的hotel,真的让人特别信服!值得学习~

转载于:https://www.cnblogs.com/darry/archive/2012/02/01/2334288.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值