目录
-
在线评论的重要性
-
问题陈述
-
为什么要进行主题建模?
-
Python实现
-
阅读数据
-
数据预处理
-
建立LDA模型
-
主题可视化
5.其他利用在线评论的方法
6.下一步是什么?
1.在线评论的重要性
前几天,我用了电子商务,并在网上购买了智能手机。这款手机很好地在我的预算内,它有5以上的4.5以上的体面评级。
不幸的是,这是一个坏的决定,因为电池备份远远低于标准杆。我没有浏览对产品的评论就匆忙做出决定,仅仅根据它的评分就买下它。我知道我不是唯一一个犯了这个错误的人!
单凭评分并没有给出我们想要购买的产品的完整画像,正如我发现的那样。所以,作为一种预防措施,我总是建议人们在决定是否购买产品之前先阅读产品的评论。
但随后出现了一个有趣的问题。如果评论数量是成百上千还是怎么办?不可能去阅读所有的评论吧?这就是自然语言处理的优势所在。
2.设置问题陈述
问题陈述是你的分析问题的基础。因此,有一个坚实、清晰、明确的问题陈述是非常重要的。
如何使用自然语言处理(NLP)来分析大量的在线评论?让我们来定义这个问题。
在线产品评论是消费者的重要信息来源。从卖家的角度来看,在线评论可以用来衡量消费者对他们所销售的产品或服务的反馈。然而,由于这些在线评论在数量和信息方面常常是压倒一切的,因此能够从这些评论中找到关键见解(主题)的智能系统将对消费者和卖方都有很大的帮助。这个系统有两个目的:
-
使消费者能够快速地提取评论所涵盖的关键主题而不必去浏览它们。
-
帮助卖家/零售商以主题的形式获得消费者反馈(从消费者评论中提取)
为了解决这个任务,我们将在亚马逊汽车评论数据使用主题建模(LDA)。你可以从这个链接下载它。类似的可用于其他类别的产品数据集在这里可以找到。
3.0 为什么要使用主题建模来完成这个任务?
顾名思义,主题建模是一个自动识别文本对象中存在的主题并导出文本语料库所显示的隐藏模式的过程。主题模型对于多种用途非常有用,包括:
-
文档聚类
-
组织大文本数据块
-
非结构化文本的信息检索
-
特征选择
当训练一些关于股票市场的文本时,一个好的主题模型应该产生诸如“出价”、“交易”、“股息”、“交易所”之类的主题。
在我们的例子中,我们没有文本文档,而是有“汽车”类别下列出的项目的数千个在线产品评论。我们的目的是从评论中抽取一定数量的重要单词组。这些词组基本上是主题,有助于确定消费者在评论中实际在谈论什么。
4. Python的实现
在这一节中,我们将使用Jupyter Note(或任何其他用于Python的IDE)。这里,我们