手把手教你 Python挖掘用户评论典型意见并自动生产报告

最新推荐文章于 2024-09-23 20:28:40 发布

大数据公社

最新推荐文章于 2024-09-23 20:28:40 发布

阅读量9.7k

点赞数 4

本文链接：https://blog.csdn.net/sfM06sqVW55DFt1/article/details/78684396

版权

本文介绍了使用Python爬取并分析京东商品评论，通过数据清洗、情感分析、语义理解，挖掘典型意见。针对评论的好、中、差评，提取关键词并生成报告。尽管情感分析准确性有限，但通过TextRank和LDA初步理解评论语义，发现了如屏幕、手感、系统等方面的用户反馈。最终，利用自研工具reportgen自动化生成PPTX报告。

摘要由CSDN通过智能技术生成

用户体验的工作可以说是用户需求和用户认知的分析。而消费者的声音是其中很重要的一环，它包含了用户对产品的评论，不管是好的坏的，都将对我们产品的改进和迭代有帮助。另外任何事情都要考虑金钱成本和人力成本，因此我希望能通过机器学习的算法来辅助分析，对用户的评论数据进行提炼和洞察。

数据获取和清洗

现在爬虫泛滥，网络公开数据的获取并不再是一个难题。简单点可以利用一些互联网的爬虫服务（如神箭手、八爪鱼等），复杂点也可以自己写爬虫。这里我们用爬虫来获取京东的评论数据。相对于亚马逊而言，京东比较坑。第一个坑是京东的反爬虫还不错，通过正常产品网址进去的那个评论列表是几乎爬不出数据来的，所有大部分网络爬虫服务都止步于此。第二个坑是一款产品的评论数只要超过一万条，那么京东就只会显示前一千条，没有公开的数据，那你爬虫技术再厉害也没办法，除非开着爬虫定时增量更新数据。

自己写爬虫的好处就是可以避免掉进第一个坑，但是第二个坑没办法。这里我爬取了 小米MIX 和 小米MIX2 的评论数据(最新的几款手机我都爬取了，需要的请戳后台)，其中小米MIX 共1578条，小米MIX2 共3292条。

本文通过分析这些数据预期完成如下几个目标