电影评论情感分析

最新推荐文章于 2022-11-17 11:31:26 发布

Mei_ZS

最新推荐文章于 2022-11-17 11:31:26 发布

阅读量4.8k

点赞数 2

分类专栏：数据分析机器学习

本文链接：https://blog.csdn.net/Mei_ZS/article/details/89004666

版权

该博客介绍了如何通过情感分析理解消费者评论，涉及数据收集、预处理、建模和评估，包括逻辑回归、随机森林、bagging和adaboost模型。利用scrapy爬虫获取评论，使用numpy、pandas和scipy进行数据处理，sklearn进行建模。

摘要由CSDN通过智能技术生成

主题介绍

当商家发布一款产品后，通过分析消费者的评论，我们能大致了解消费者对此产品的评价，如正面的，或负面的。我们更进一步可以归类正面评论和负面评论，从中找到产品的主要优点和主要缺陷，进而提出改进产品的意见，提高产品的接受度和好评度。

处理工具及方法

收集测试评论（爬虫：scrapy等）
数据清洗及数据标记，需要标记出评论是正面或负面（numpy、pandas、scipy）
数据建模及测试（sklearn）
模型应用及评估

主要步骤：

1.文件导入

import numpy as np
import pandas as pd

#导入结构化评论数据
data=pd.read_csv(r"movie.csv")
data.sample(5)

2.空值统计及处理

#统计空值
data.isnull().sum()

3.重复值统计及处理

#统计重复数据并删除重复数据
print(data.duplicated().sum())

data.drop_duplicates(inplace=True)

print(data.duplicated().sum())

4.标签映射

#将标签pos和neg映射成1和0
data["label"]=data["label"].map({"pos":1,"neg":0})

5.语料清洗及分词

# 用于进行中文分词的库。安装：
# pip install jieba

import jieba
import re

# 获取停用词列表
def get_stopword():
    # 默认情况下，在读取文件时，双引号会被解析为特殊的引用符号。双引号中的内容会正确解析，但是双引号不会解析为文本内容。
    # 在这种情况下，如果文本中仅含有一个双引号，会产生解析错误。如果需要将双引号作为普通的字符解析，将quoting参数设置为3。
    stopword = pd.read_csv(r