第7章 负面评论识别

        水军的大行其道,严重影响了社会舆论,尤其是有组织地针对公众任务、企业的诽谤和攻击行为,造成严重的社会影响。大行的社交媒体以及知名论坛,早期都需要雇佣大量的运营支撑人员来人工鉴别处理。是否可以使用机器学习的技术来达到一定程度的自动化识别负面评论呢?

        本章主要以IMDB数据集为例介绍负面评论的识别技术。介绍识别负面评论使用的数据集以及使用的特征提取方法,包括词袋和TF-IDF模型、词汇表模型、Word2Vec和Doc2Vec模型。介绍使用的模型以及对应的验证结果,,包括朴素贝叶斯、支持向量机和深度学习。

7.1 数据集

        测试数据来自互联网电影资料库(Internet Movie Database, IMDB),IMDB是一个关于电影演员、电影、电视节目、电视明星和电影制作的在线数据库。IMDB另一受欢迎的特色是其对应每个数据库条目,有47个主要板块的留言板系统。注册用户可以在这些留言板上分享和讨论关于电影、演员、导演的消息。至今已有超过600万注册用户使用过留言板。我们使用标注为正面评论和负面评论的留言板数据。

        整个数据集一共10万条记录,5万做了标记,5万没有做标记。5万做了标记的数据集合被随机分配成了训练数据集和测试数据集。

7.2 特征提取

7.2.1 词袋和TF-IDF模型

7.2.2 词汇表模型

7.2.3 Word2Vec模型和Doc2Vec模型

7.3 模型训练与验证

7.3.1 朴素贝叶斯算法

7.3.2 支持向量机算法

7.3.3 深度学习算法之MLP
7.3.4 深度学习算法之CNN

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值