数据分析中，用Python轻松挖掘相似评论（文本）

最新推荐文章于 2024-05-02 19:40:35 发布

叶玄哥

最新推荐文章于 2024-05-02 19:40:35 发布

阅读量1.2k

点赞数

分类专栏：编程文章标签：数据分析 python 自然语言处理

本文链接：https://blog.csdn.net/qq_42766267/article/details/122117307

版权

本文介绍了在数据分析中，如何使用潜在语义索引（LSI）算法挖掘相似文本，以解决单纯字符串匹配无法有效查找类似评论的问题。通过构建LSI模型，对张同学视频评论进行分析，展示如何查询并找到与特定评论相似的内容。

摘要由CSDN通过智能技术生成

哈喽，大家好。

我们现在做数据分析的时候，不可避免地会与文本数据打交道，今天跟大家分享在数据分析中，如何挖掘出相似的文本。

本文从提出问题，到解决问题，再到算法原理三个方面来介绍。

1. 提出问题

假设在一个电商APP里，我们想要找出某款商品评价里，关于“快递很差” 的评论，该怎么做？

如果只用字符串匹配的方式，你可能会遍历所有的评论，判断每条评论里是否包含“快递很差”字符串。

但这种做法对下面几条评论就失效了

快递真差劲
快递一点不好
物流真差

所以，单纯的字符串匹配会漏掉很多评论。

2. 解决问题

要解决上面的问题，需要借助 潜在语义索引(Latent Semantic Indexing, 以下简称LSI) 算法。

LSI 算法可以挖掘相似文本，因此，通过 LSI 算法可以找到与“快递很差”相似的评论。

下面我们以之前一篇文章《挖掘张同学

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

叶玄哥

关注关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

基于Python爬虫的大众点评商家评论的文本挖掘

kkbb8811的博客

02-21

1万+

使用工具编程语言工具：Python 2.7 R 2 .2.1 excel 浏览器：Google Chrome 数据库： Mongodb 相关算法：情感分析情感分析（Sentiment Analysis），又被称为倾向性分析、意见挖掘，是通过对带有一定的情感色彩的主观性文本进行处理分析，归纳推理的过程，例如通过用户对产品的性能、价格、便携性等方面的评价分析用户对该产品的情感倾向。

《Python 数据分析与挖掘实战》第十五章电商产品评论数据LDA主题模型、文本挖掘

热门推荐

qq_41775711的博客

07-03

1万+

一、分析方法与过程本次针对京东商城上的“美的”热水器的文本评论数据进行建模分析。本文进行基本的预处理、分词等操作后建立LDA主题模型，实现对文本评论数据的倾向性判断及信息挖掘分析。（1）利用爬虫进行数据采集（由于最近较忙，爬虫代码等空了再附上，暂且先用书中提供的数据进行建模），原始文本评论数据为将品牌为“美的”的一列评论抽取，另存为文本文件。代码如下（2）对数据进行基本处理，包括数据预处理、中文分...

参与评论您还未登录，请先登录后发表或查看评论

挖掘重复评论-DBSCAN文本聚类实战

weixin_47370009的博客

05-24

868

利用DBSCAN算法可以方便地对批量交易、团伙作案加以挖掘，结合文本特征提取，可以对淘宝、京东、大众点评、汽车论坛等平台上面海量的评论进行聚类，挖掘刷评论用户、发现商品评价的典型意见……

【数据挖掘】数据统计性描述与相似度

qq_45957458的博客

11-06

650

数据挖掘之认识数据、数据相似性度量、数据统计性描述

python 文本相似度_Python数据分析及可视化实例之文本处理文本相似度（29）

weixin_39986169的博客

11-24

383

1.项目背景：PS趁热打铁2.分析步骤：（1）读取词典和文档；（2）计算tf idf 和 lsi；（3）生成相似度矩阵；（4）计算相似度。3.源码（公众号：海豹战队）：# coding: utf-8# 亲，转载即同意帮推公众号：海豹战队，嘿嘿......# 数据源可关注公众号：海报战队，后留言：数据# In[1]:from gensim import corpora, models, simila...

Python实现购物评论文本情感分析操作【基于中文文本挖掘库snownlp】

09-20

在Python中进行文本情感分析，特别是在处理中文文本时，常常会遇到各种挑战，因为中文文本的处理相对于英文来说更为复杂。然而，通过使用特定的库，如snownlp，我们可以简化这一过程。snownlp是一个由国人开发的...

数据挖掘与数据分析应用案例数据挖掘算法实践基于Python的东野圭吾小说集文本挖掘算法.doc

06-30

### 数据挖掘与数据分析应用案例：基于Python的东野圭吾小说集文本挖掘 #### 一、数据挖掘与文本挖掘概述随着信息技术的飞速发展，数据挖掘技术在多个领域得到了广泛应用，尤其在大数据时代，如何从海量数据中...

数据挖掘与数据分析应用案例数据挖掘算法实践基于Python的用杰卡德相似算法来进行相似度计算.doc

最新发布

06-30

### 数据挖掘与数据分析应用案例：基于Python的杰卡德相似度算法实践 #### 一、引言随着互联网和信息技术的飞速发展，人类社会每天都会产生大量的数据。这些数据蕴含着丰富的信息和知识，如何有效地从这些海量...

Python数据分析与数据挖掘：解析数据的力量_文本数据挖掘与python应用

2401_84688721的博客

05-02

775

另外，pandas库还提供了数据合并与拆分的灵活性。我们可以轻松地将多个数据集进行合并，根据指定的键值将不同的数据集进行关联。这为我们分析多源数据提供了便利。同时，pandas还支持将大的数据集拆分为多个较小的数据集，方便我们进行分布式计算和处理。总之，Python中的pandas库是数据处理的利器。它提供了丰富的函数和方法，使得数据清洗与整理、数据转换与重塑以及数据合并与拆分变得更加简单高效。无论是在数据分析、数据挖掘还是机器学习等领域，pandas都扮演着重要的角色。

《Python数据分析与挖掘实战》第15章 ——电商产品评论数据情感分析

wx1871428的博客

07-01

1135

文章目录 1.挖掘背景与目标 2.2 数据探索与预处理 * 2.1 数据筛选 2.2 数据去重 2.3 删除前缀评分 2.4 jieba分词 3 基于LDA 模型的主题分析 4.权重 5.如何在主题空间比较两两文档之间的相似度 本文是基于《Python数据分析与挖掘实战》的实战部分的第15章的数据——《电商产品评论数据情感分析》做的分析。旨在回顾对评论文本数据的处理和建模方法。 1.挖掘背景与目标对京东平台上的热水器评论进行文本挖掘分析，挖掘建模如下：分析某一个品牌热水器的用户情感

python实验：去除注水书评

qjyws的博客

10-02

526

文章目录实验题目一、思路二、步骤1.思路2.编码总结实验题目 ## 实验题1 以下是一系列书评,但是很多是灌水的,请你写一段代码,把灌水的书评尽可能去掉。灌水书评一般会有一个特点：重复的字比较多，利用这个特点，把灌水书评去掉 ‘这是一本非常好的书，作者用心了’, ‘作者大大辛苦了’, ‘好书，感谢作者提供了这么多的好案例’, ‘书在运输的路上破损了，我好悲伤。。。’, ‘为啥我买的书上有菜汤。。。。’, ‘啊啊啊啊啊啊，我怎么才发现这么好的书啊，相见恨晚’, ‘书的质量有问题啊，怎么会开胶呢？？？？？

【爬虫实战】python文本分析库——Gensim

qq_41314882的博客

11-22

4319

Gensim 允许你使用 TF-IDF 权重和其他算法来提取文档中的关键词。当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

python编程题9-过滤无效书评

打土豆的小篮球

07-29

1544

无效书评规则：如果书评中出现一半以上的重复字符，就认为该书评无效。 comments = ['这是一本非常好的书，作者用心了', '作者大大辛苦了', '好书，感谢作者提供了这么多的好案例', '书在运输的路上破损了，我好悲伤。。。', '为啥我买的书上有菜汤。。。。', '啊啊啊啊啊啊，我怎么才发现这么好的书啊，相见恨晚', '书的质量有问题啊，怎么会开胶呢？

全网独发gensim中similarities.Similarity用法

weixin_30236595的博客

08-11

6678

similarities.SparseMatrixSimilarity源码解析

silent_crown的博客

04-02

4198

def __init__(self, corpus, num_features=None, num_terms=None, num_docs=None, num_nnz=None, num_best=None, chunksize=500, dtype=numpy.float32, maintain_sparsity=False): ""...

python爬取微博评论（无重复数据）

Python_sn的博客

09-29

3206

python爬取微博评论（无重复数据）前言一、整体思路二、获取微博地址 1、获取ajax地址2、解析页面中的微博地址3、获取指定用户微博地址三、获取主评论四、获取子评论 1、解析子评论2、获取子评论五、主函数调用 1、导入相关库2、主函数执行3、结果写在最后很多人学习python，不知道从何学起。很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。很多已经做案例的人，却不知道如何去学习更加高深的知识。那么针对这三类人，我给大家提供一个好的学习平台，

python电商评论情感分析_电商产品评论数据情感分析

weixin_39736150的博客

12-15

2370

来自：Python数据分析与挖掘实战——张良均著1. 分析方法与过程本次建模针对京东商城上“美的”品牌热水器的消费者评论数据，在对文本进行基本的机器预处理、中文分词、停用词过滤后，通过建立包括栈式自编码深度学习、语义网络与LDA主题模型等多种数据挖掘模型，实现对文本评论数据的倾向性判断以及所隐藏的信息的挖掘并分析，得到有价值的内在内容。2. 评论数据预处理文本数据的预处理主要由3个部分组成：文本去...

python 评论分析_基于Python-Snownlp的新闻评论数据分析

qq_27851579的博客

06-29

1372

摘要网上热点新闻的评论不仅反映了民众对社会热点事件的关注程度，也反映了公众所表现出的各类情感价值和思想动态。基于Python- Snownlp经过数据采集，数据预处理，建立向量模型，数据挖掘与分析对新闻评论中用户观点与情绪进行研究，有效實现舆情分析和监控。关键词 Python Snownlp；网络爬虫；聚类分析；情感分析中图分类号 G2 文献标识码 A 文章编号 1674-6708（2018）219-0104-02 步入“互联网+”与大数据时代，网络媒体已经成为舆论新格局的重要组成部分，人们更倾向于

Python文本挖掘：余弦相似度与TF-IDF在文本分析中的应用

Python文本挖掘是数据挖掘领域的一个重要分支，主要涉及对文本数据进行深入分析和理解。本文档围绕四个关键部分展开：近似度分析、文本情感分析、协同过滤以及词云生成。 1. **近似度分析**： - **余弦相似度与...