Step 1. 导入模块
In [1]:
import numpy as np import pandas as pd import plotly.graph_objects as go import plotly.express as px import jieba import jieba.analyse from stylecloud import gen_stylecloud from IPython.display import Image # 用于在jupyter lab中显示本地图片Step 2. 店铺评价数据分析及其可视化
2.1 店铺评价数据概览
In [3]:
df = pd.read_csv('/home/mw/input/luosifen4874/李子柒螺蛳粉评论.csv') df.head(6)Out[3]:
UserNick comment_time content auctionSku 0 太***4 2020-04-09 18:53:48 整体评价:还不错呦,东西蛮好的,第一次买李子柒家东西呀,不错呀,棒棒哒 胀包问题:没有呀,包... 口味:螺蛳粉3袋装 1 秘***0 2020-04-10 13:33:19 #柒家美拍达人#当吃到李子柒家第一口螺狮粉的时候,只想说,漫长的等待是值得的😁米粉爽滑Q弹,... 口味:螺蛳粉3袋装 2 m***3 2020-04-11 16:57:29 整体评价:不错 胀包问题:无 包装品质:好 口感味道:辣椒半包就够了,挺香的 新鲜度:可以 ... 口味:螺蛳粉3袋装 3 爱***6 2020-04-10 17:52:28 #柒家美拍达人# 等待了好久的美食终于到了,可以说期待了很久,拿到后激动了很久,想着一定给柒... 口味:螺蛳粉3袋装 4 t***2 2020-04-11 18:39:50 3 月11 号下单,4月11 号收到的,哈哈哈哈 不愧是我等了一个月的螺蛳粉,好吃到爆炸!!... 口味:螺蛳粉3袋装 5 t***9 2020-04-08 16:36:42 据说,螺蛳粉的臭味,是因酸笋,而螺蛳粉的汤,由螺丝肉和骨头熬成,此举使汤清甜与鲜美,后加浓郁... 口味:螺蛳粉3袋装 In [4]:
print("——" * 10) print('数据集存在重复值个数:') print(df.duplicated().sum()) print("——" * 10) print('数据集缺失值情况:') print(df.isna().sum()) print("——" * 10) print('数据集各字段类型:') print(df.dtypes) print("——" * 10) print('数据总体概览:') print(df.info())———————————————————— 数据集存在重复值个数: 20 ———————————————————— 数据集缺失值情况: UserNick 0 comment_time 0 content 0 auctionSku 0 dtype: int64 ———————————————————— 数据集各字段类型: UserNick object comment_time object content object auctionSku object dtype: object ———————————————————— 数据总体概览: <class 'pandas.core.frame.DataFrame'> RangeIndex: 2000 entries, 0 to 1999 Data columns (total 4 columns): UserNick 2000 non-null object comment_time 2000 non-null object content 2000 non-null object auctionSku 2000 non-null object dtypes: object(4) memory usage: 62.6+ KB NoneIn [5]:
df.drop_duplicates(inplace=True)2.2 商品评价数量走势图
In [6]: