水军的大行其道,严重影响了社会舆论,尤其是有组织地针对公众任务、企业的诽谤和攻击行为,造成严重的社会影响。大行的社交媒体以及知名论坛,早期都需要雇佣大量的运营支撑人员来人工鉴别处理。是否可以使用机器学习的技术来达到一定程度的自动化识别负面评论呢?
本章主要以IMDB数据集为例介绍负面评论的识别技术。介绍识别负面评论使用的数据集以及使用的特征提取方法,包括词袋和TF-IDF模型、词汇表模型、Word2Vec和Doc2Vec模型。介绍使用的模型以及对应的验证结果,,包括朴素贝叶斯、支持向量机和深度学习。
7.1 数据集
测试数据来自互联网电影资料库(Internet Movie Database, IMDB),IMDB是一个关于电影演员、电影、电视节目、电视明星和电影制作的在线数据库。IMDB另一受欢迎的特色是其对应每个数据库条目,有47个主要板块的留言板系统。注册用户可以在这些留言板上分享和讨论关于电影、演员、导演的消息。至今已有超过600万注册用户使用过留言板。我们使用标注为正面评论和负面评论的留言板数据。
整个数据集一共10万条记录,5万做了标记,5万没有做标记。5万做了标记的数据集合被随机分配成了训练数据集和测试数据集。