哈喽,大家好。
我们现在做数据分析的时候,不可避免地会与文本数据打交道,今天跟大家分享在数据分析中,如何挖掘出相似的文本。
本文从提出问题,到解决问题,再到算法原理三个方面来介绍。
1. 提出问题
假设在一个电商APP里,我们想要找出某款商品评价里,关于“快递很差” 的评论,该怎么做?
如果只用字符串匹配的方式,你可能会遍历所有的评论,判断每条评论里是否包含“快递很差”字符串。
但这种做法对下面几条评论就失效了
-
快递真差劲
-
快递一点不好
-
物流真差
所以,单纯的字符串匹配会漏掉很多评论。
2. 解决问题
要解决上面的问题,需要借助 潜在语义索引(Latent Semantic Indexing, 以下简称LSI) 算法。
LSI 算法可以挖掘相似文本,因此,通过 LSI 算法可以找到与“快递很差”相似的评论。
下面我们以之前一篇文章《挖掘张同学