数据预处理--词语压缩

最新推荐文章于 2023-11-16 19:39:05 发布

boke_xiaoyuan

最新推荐文章于 2023-11-16 19:39:05 发布

阅读量2k

点赞数

分类专栏：数据预处理文章标签：数据预处理词语压缩

本文链接：https://blog.csdn.net/boke_xiaoyuan/article/details/78635447

版权

博客介绍了在电商评论数据预处理中，如何通过词语压缩来去除单条评论文本中的重复文字。方法主要针对开头或结尾的重复文字，通过正向和逆向判断实现压缩，例如将'质量很好很好很好很好'压缩为'质量很好'。

摘要由CSDN通过智能技术生成

                    
                        
                    
                    词语压缩概念： 
在电商评论数据中，最常见的就是数据质量的参差不齐，通过简单的数据去重处理，可以删除掉一部分相同的评论，但是对于去除单条评论文本中重复出现的文字，简单的去重处理并不能完成这个任务。词语压缩的目的就是将单条文本中的重复文字进行压缩删除。 
比如下面的这些例子： 
“质量很好很好很好很好” 
“质量很好很好” 
“差差差差差差差差差差差差” 
“差差差差差” 
“一般一般一般一般啦” 
“一般一般” 
像这样的两条相似的评论，简单去重是处理不了的。 
使用方法后，得到的结果如下： 
“质量很好很好很好很好” -》 “质量很好” 
“差差差差差差” -》 “差” 
“一般一般一般一般啦” -》 “一般啦” 
方法简介： 
参考了一些书籍，由于大脑运转不灵活，无法领会其中全部理论概念，最终只能用Python实现部分，甚至可能有点偏离原方法。 
从正常角度思考，重复文字一般都是出现在评论的开头或者结尾，所以这里只对开头结尾重复的文字进行压缩处理： 
1）正向判断：首先定义两个空字符变量（L1，L2），逐个元素遍历评论文本。 
索引从0开始，将读取到的字符元素存放在L1，当读取到的字符元素与L1的
                

最低0.47元/天解锁文章

boke_xiaoyuan

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
数据预处理--词语压缩

词语压缩概念：在电商评论数据中，最常见的就是数据质量的参差不齐，通过简单的数据去重处理，可以删除掉一部分相同的评论，但是对于去除单条评论文本中重复出现的文字，简单的去重处理并不能完成这个任务。比如下面的这些例子：“质量很好很好很好很好”“质量很好很好”“差差差差差差差差差差差差”“差差差差差”“一般一般一般一般啦”“一般一般”像这样的
复制链接

扫一扫

专栏目录