Finding Deceptive Opinion Spam by Any Stretch of the Imagination (11 ACL)

最新推荐文章于 2024-09-26 16:50:25 发布

weixin_30687811

最新推荐文章于 2024-09-26 16:50:25 发布

阅读量295

点赞数 1

文章标签：数据结构与算法人工智能

原文链接：http://www.cnblogs.com/darry/archive/2012/02/01/2334288.html

版权

论文 Finding Deceptive Opinion Spam by Any Stretch of the Imagination(11 ACL)

文章研究虚假的spam，第一个贡献就是标注了标准的虚假评论和真实评论各400篇，组成了800篇的gold-standard数据。数据的构造过程使用了AMT(Amazon Mechanical Turk)，很严谨，很靠谱！

作者是将spam识别看成一个二元分类问题，分别尝试了3种方法，并尝试了3种方法的融合（这个是第二个贡献）。

第1种方法是通过文本的风格识别(Genre identification)，特征是使用POS的频率；

第2种方法是进行心理学的欺骗检测，使用的LIWC2007工具，这个工具实际是依靠关键词（keywords）的，将4500个关键词映射到80个维度上，作者最终也将这个融合到了SVM中；

第3种方法是基本的文本分类方法，可以尝试Unigram和+Bigram和+Trigram。

最终的实验结果表明，单独使用一种方法，是单纯的文本分类Unigram + Bigram(SVM)最佳；全文最佳的实验效果是使用LIWC + Unigram + Bigram(SVM)效果最佳，Accuracy达到了89.9%。

总体来说感觉作者做实验特别严谨，实验数据的构造不用说，非常牛！在做5-fold实验过程中，训练和测试的数据分别是针对不同的hotel，真的让人特别信服！值得学习~

转载于:https://www.cnblogs.com/darry/archive/2012/02/01/2334288.html

weixin_30687811

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。