随着网上购物越来越流行,人们对于网上购物的需求变得越来越高,这让京东,淘宝等电商平台得到了很大的发展机遇。但是,这种需求也推动了更多的电商平台的发展,引发了激烈的竞争。在这种电商平台激烈竞争的大背景下,除了提高商品质量,压低商品价格外,了解更多的消费者心声对于电商平台来说也越来越重要。其中非常重要的一种方式就是针对消费者的文本评论数据进行内在信息的数据挖掘分析。而得到这些信息,也有利于对应商品的生产自身竞争力的提高。
1.数据准备
#-*- coding: utf-8 -*-
import pandas as pd
inputfile = 'huizong.csv' #评论汇总文件
outputfile = 'meidi_jd.txt' #评论提取后保存路径
data = pd.read_csv(inputfile, encoding = 'utf-8')
data.head()
<br />获取京东平台数据中所有品牌名。
data['品牌'].unique()
结果:array(['AO', '海尔', '美的', '格兰仕', '万和', '万家乐'], dtype=object)<br />我们发现这一份数据中有AO、海尔、美的、格兰仕、万和、万家乐共6个品牌,我们这里只对‘美的’品牌的文本评论数据进行分析。
# 这里我们只提取”美的“品牌的评论
import os
import importlib
import sys
importlib.reload (sys)
# 默认编码
sys.getdefaultencoding() # 查看当前编码格式
data = data[[u'评论']][data[u'品牌'] == u'美的']
# 把数据保存为csv文件
data.to_csv(outputfile, index = False, header = False, encoding = 'utf-8')
outdata_1 = pd.read_csv(outputfile, encoding = 'utf-8', header = None)
outdata_1.head()
2.数据预处理
取到文本后,首先要进行文本评论数据的预处理