一、分析背景
数据集:亚马逊乐器评论数据集
数据来源:https://www.kaggle.com/eswarchandt/amazon-music-reviewswww.kaggle.com
数据描述:
这是ISRO给出的问题陈述,用于对客户意见进行分类。这将有助于组织了解客户反馈。文件包含reviewer ID , User ID, Reviewer Name, Reviewer text, helpful, Summary(obtained from Reviewer text),Overall Rating on a scale 5, Review time等9个字段。
数据字段理解:
reviewerID - 评论用户ID. 例如:A2SUAM1J3GNN3B
asin - 产品编号, 例如 0000013714
reviewerName - 用户昵称
helpful - 评论的帮助性评级, e.g. 2/3
reviewText - 评论内容
overall - 产品评分,满分5分
summary - 评论摘要
unixReviewTime - 评论日期(unix时间戳,解释:unix时间戳是从1970年1月1日(UTC/GMT的午夜)开始所经过的秒数)
reviewTime - 评论日期 (自然时间,正常的日期时间显示)
二、分析目的
根据亚马逊乐器购买用户的评论数据,分析产品的评分情况,分离出音乐产品好评差评的关键热词。
三、分析思路
1、哪个时期购买音乐产品的用户反馈比较积极?产品评分情况怎么样?
2、音乐产品的评论热度情况?产品的评分如何?
3、综合所有用户评论,用户评价主要体现为哪些词汇?
四、分析内容
1、数据清洗
加载必要的数据分析模块:
import numpy as np #数学处理模块
import pandas as pd #数据分析工具库
import matplotlib.pyplot as plt #数据分析工具库,主要用于作图
import seaborn as sns #一种美化表格的分析库
加载亚马逊乐器评论数据集:
review_data = pd.read_csv(r'E:\Musical_instruments_reviews.csv')
review_data.head()#观察数据前5行
观察整个数据的信息,包括数目条数、数据类型:
#查看缺失值
review_data.info()
#共计数据10261条数据,发现reviewerName、reviewText有缺失记录,需要进一步查看数据
一致化处理:
发现日期列reviewTime数据类型不是我们需要的日期格式,所以需要转换数据类型,这里需要导入datetime模块:
#一致化处理
#数据类型转换:reviewTime数据类型不是日期格式,需要转