主题介绍
当商家发布一款产品后,通过分析消费者的评论,我们能大致了解消费者对此产品的评价,如正面的,或负面的。我们更进一步可以归类正面评论和负面评论,从中找到产品的主要优点和主要缺陷,进而提出改进产品的意见,提高产品的接受度和好评度。
处理工具及方法
- 收集测试评论(爬虫:scrapy等)
- 数据清洗及数据标记,需要标记出评论是正面或负面(numpy、pandas、scipy)
- 数据建模及测试(sklearn)
- 模型应用及评估
主要步骤:
1.文件导入
import numpy as np
import pandas as pd
#导入结构化评论数据
data=pd.read_csv(r"movie.csv")
data.sample(5)
2.空值统计及处理
#统计空值
data.isnull().sum()
3.重复值统计及处理
#统计重复数据并删除重复数据
print(data.duplicated().sum())
data.drop_duplicates(inplace=True)
print(data.duplicated().sum())
4.标签映射
#将标签pos和neg映射成1和0
data["label"]=data["label"].map({"pos":1,"neg":0})
5.语料清洗及分词
# 用于进行中文分词的库。安装:
# pip install jieba
import jieba
import re
# 获取停用词列表
def get_stopword():
# 默认情况下,在读取文件时,双引号会被解析为特殊的引用符号。双引号中的内容会正确解析,但是双引号不会解析为文本内容。
# 在这种情况下,如果文本中仅含有一个双引号,会产生解析错误。如果需要将双引号作为普通的字符解析,将quoting参数设置为3。
stopword = pd.read_csv(r