数据集获取
利用python爬取了大众点评网页端上南京市内的三家海底捞的评论数据,包含口味、环境、服务三项得分以及评论文本、评论时间。店铺的选择借鉴了分层抽样的方法,以评分为分层标准,选取了得分最高、得分中等以及得分最低的三家店铺。第一家是南京市内综合评分最高的店铺,为夫子庙茂业天地店,综合评分4.97分,共计3199条评论文本(截至分析前);第二家是新街口新百店,综合评分4.55分,共计966条评论(截至分析前);第三家是金鹰湖滨天地店,综合评分3.75分,共计73条评论文本(截至分析前)。
文本处理
分词
文本分词利用的是python的jieba分词工具库,分词结果部分实例:
顾客痛点挖掘