python电商评论情感分析_电商产品评论数据情感分析

来自:Python数据分析与挖掘实战——张良均著

1. 分析方法与过程

本次建模针对京东商城上“美的”品牌热水器的消费者评论数据,在对文本进行基本的机器预处理、中文分词、停用词过滤后,通过建立包括栈式自编码深度学习、语义网络与LDA主题模型等多种数据挖掘模型,实现对文本评论数据的倾向性判断以及所隐藏的信息的挖掘并分析,得到有价值的内在内容。

2. 评论数据预处理

文本数据的预处理主要由3个部分组成:文本去重、机械压缩去词、短句删除。

2.1 文本去重

1. 文本去重,就是去除文本评论数据中重复的部分。

去重的原因:

(1). 一些电商平台避免客户长时间不评论,设置一道程序,用户超过规定时间不评论,系统会自动评论。(比如国美)

(2). 同一个人出现重复评论,比如:同一个人购买多种热水器为了省事,复制粘贴,就会出现在同样或相近的评论,当然不乏有价值的评论,但只是第一条有作用。

(3). 由于语言的特点,大多数情况下,不同人之间有价值的评论不会出现重复,比如:“好好好好好好”,“XX牌热水器  XX升”或者复制、粘贴上一个人的评论,这种评论显然就只有最早评论才有意义(即第一条)

2.常见文本去重算法及缺陷

许多文本去重算法通过计算文本之间的相似度,以此为基础去重,包括编辑距离去重、Simhash算法去重等。

编辑距离算法去重是计算两条语料的编辑距离,然后进行阈值判断,如果编辑距离小于阈值则进行去重处理。

比如:"XX 牌热水器 XX升 大品牌高质扯“ 以及 &#

  • 1
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值