手把手教你 Python挖掘用户评论典型意见并自动生产报告

本文介绍了使用Python爬取并分析京东商品评论,通过数据清洗、情感分析、语义理解,挖掘典型意见。针对评论的好、中、差评,提取关键词并生成报告。尽管情感分析准确性有限,但通过TextRank和LDA初步理解评论语义,发现了如屏幕、手感、系统等方面的用户反馈。最终,利用自研工具reportgen自动化生成PPTX报告。
摘要由CSDN通过智能技术生成

用户体验的工作可以说是用户需求和用户认知的分析。而消费者的声音是其中很重要的一环,它包含了用户对产品的评论,不管是好的坏的,都将对我们产品的改进和迭代有帮助。另外任何事情都要考虑金钱成本和人力成本,因此我希望能通过机器学习的算法来辅助分析,对用户的评论数据进行提炼和洞察。



1

数据获取和清洗


现在爬虫泛滥,网络公开数据的获取并不再是一个难题。简单点可以利用一些互联网的爬虫服务(如神箭手、八爪鱼等),复杂点也可以自己写爬虫。这里我们用爬虫来获取京东的评论数据。相对于亚马逊而言,京东比较坑。第一个坑是京东的反爬虫还不错,通过正常产品网址进去的那个评论列表是几乎爬不出数据来的,所有大部分网络爬虫服务都止步于此。第二个坑是一款产品的评论数只要超过一万条,那么京东就只会显示前一千条,没有公开的数据,那你爬虫技术再厉害也没办法,除非开着爬虫定时增量更新数据。


自己写爬虫的好处就是可以避免掉进第一个坑,但是第二个坑没办法。这里我爬取了 小米MIX 和 小米MIX2 的评论数据(最新的几款手机我都爬取了,需要的请戳后台),其中 小米MIX 共1578条,小米MIX2 共3292条。


本文通过分析这些数据预期完成如下几个目标


  • 1、数据清洗后的好评率

  • 2、好/中/差评的概览

  • 3、典型意见分析


首先来看看MIX2的大致情况:


一共有3497条评论,其中有些评论内容还是完全相同的。用户大概在购买9天后后评论(可能与到货日期有关),平均打分为4.87分,评论里面有些完全相同的,小米MIX2只有一种颜色等等。


接下来我们先做第一件事情

京东采用的是5分制,其中4-5分为好评,2-4分为中评,1分为差评。MIX2的好评率为96.63%,与京东官网的一致。


粗略的浏览以下评论,我们发现有这么几种无效评论。


第一种全是标点符号或者就一两个字:

这种情况可以利用正则表达式来去除,第二种比较麻烦,如:

这种评论中它纯属凑字数和灌水,不含任何产品的特征。一种想法是看看评论中涉及的名词是否是手机领域中的词语,但是实际情况会非常复杂,比如


“用的很不错”、“太差了”...


它并没有主语,并不知道它评价的是啥。这里我们反过来,假设每一类无效评论都有类

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值