【自然语言处理】预测电影影评情感的深度学习词袋模型

翻译自外网:https://machinelearningmastery.com/deep-learning-bag-of-words-model-sentiment-analysis/


教程概述:

1.电影评论集
2.数据准备
3.词包表示法
4.情感分析模型


1.电影评论集

数据集介绍:该数据集是由1000正1000负的IMDB网站的电影评论组成

下载地址:Movie Review Polarity Dataset(review_polarity.tar.gz, 3MB)


2.数据准备

在这一节中,我们将完成3件事:
1、将数据分离成训练和测试集。
2、加载和清除数据
3、定义词库


分离成训练和测试集我们将使用最后100个正面评论和最后100个负面评论作为测试集(100个评论),剩下的1800个评论作为训练集。即:90%训练集,10%测试集。评论编号000至899是训练数据,评论编号从900起是测试数据。


数据的装载和清理clean_doc()文本数据已经相当干净,所以不需要太多的准备。我们将使用以下方法准备数据:
1、以空格分割数据
2、从单词中删除所有标点符号
3、删除所有非纯字母组成的单词。
4、删除所有已知的停用词。
5、删除所有长度<= 1的字符。


定义词库:我们可以开发一个词汇表作为计数器,遍历所有评论,将评论中的词汇加入词库中。



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值