词语压缩概念: 在电商评论数据中,最常见的就是数据质量的参差不齐,通过简单的数据去重处理,可以删除掉一部分相同的评论,但是对于去除单条评论文本中重复出现的文字,简单的去重处理并不能完成这个任务。词语压缩的目的就是将单条文本中的重复文字进行压缩删除。 比如下面的这些例子: “质量很好很好很好很好” “质量很好很好” “差差差差差差差差差差差差” “差差差差差” “一般一般一般一般啦” “一般一般” 像这样的两条相似的评论,简单去重是处理不了的。 使用方法后,得到的结果如下: “质量很好很好很好很好” -》 “质量很好” “差差差差差差” -》 “差” “一般一般一般一般啦” -》 “一般啦” 方法简介: 参考了一些书籍,由于大脑运转不灵活,无法领会其中全部理论概念,最终只能用Python实现部分,甚至可能有点偏离原方法。 从正常角度思考,重复文字一般都是出现在评论的开头或者结尾,所以这里只对开头结尾重复的文字进行压缩处理: 1)正向判断:首先定义两个空字符变量(L1,L2),逐个元素遍历评论文本。 索引从0开始,将读取到的字符元素存放在L1,当读取到的字符元素与L1的