年度总结---------记录app评论数据预处理

最新推荐文章于 2024-08-06 08:32:55 发布

一个追逐自我的程序员

最新推荐文章于 2024-08-06 08:32:55 发布

阅读量1.1k

点赞数

分类专栏： nlp python 大数据文章标签： nlp

本文链接：https://blog.csdn.net/qq_34739497/article/details/86568388

版权

这篇博客回顾了作者2018年的经历，并重点介绍了Google Play app评论的预处理步骤，包括去除非英文评论、转为小写、移除表情符、停用词和标点，以及进行词性提取和词性还原。使用了langid、nltk和emoji等库进行处理，并提到使用SentiStrength进行情感分析。

摘要由CSDN通过智能技术生成

前言

在这里插入图片描述

好久没更新博客了，由于大多事（主要还是懒0.0）耽误了。今晚，算是我待在学校最后一个晚上了，也是今年最后一篇博客了，以此献给即将过去的2018年。
记录记录今年做的一些自认为有意义的事：

今年开始我谈了人生中的第一次恋爱（0.0），虽然后来因为各种原因现在分手了，但是算是今年我觉得最有意义的一件事了，至少大学有段恋爱经历，从中也学习了不少。
从学校大数据工作室毕业，算是入门了大数据的大门（感觉有点难啊，感觉自己还是啥都不会，工作都找不到0.0）
跟着同学大佬参加计算机大赛人工智能组，水了个国二，申请了个专利，虽然有点水，也算是接触了比赛氛围以及学术专利怎么发表。
参加考研，懵懵懂懂踏上了考研的征程，由于自己私事以及意志力不坚定，导致复习的并不是很好，但是不论结果如何，我觉得能坚持下去也算是一种耐力和勇气的体现（0.0）
考完试后就开始做老师给的项目任务，直到现在。

人生路越走越觉得自己很渺小，一些事的无可奈何与无能为力造成自己很长一段时间迷失了自我，失去了初心，或许人只有越发觉得自己的渺小，才有更大的动力去前进吧，希望自己脚踏实地、且行且珍惜，2019冲鸭！！！

Google Play app评论分析

评论数据预处理

这里用的是从google play爬取的100万条用户评论数据，由于我没参与爬取工作，所以就不谈评论爬取。如下图，一条用户评论我们需要数据预处理，下面介绍一些预处理操作。
在这里插入图片描述

去掉非英文的评论
首先，我们去掉非英文的评论，因为google play支持其他语言用户评论，这里去掉干扰语言。因为Google的基于java的语言检测库版本太老，而且在python里面用起来不方便，所以我在github上面找到比较新的基于python的langid库，实验效果还不错。

print(langid.classify("我爱中国"))
print(langid.classify("i love China"))
print(langid.classify("わたしは中国を愛している"))#日文
print(langid.classify("나는 중국을 사랑 한다"))#韩文
print(langid.classify("J’aime la Chine"))#法文

在这里插入图片描述

评论转换为小写形式
转换小写形式，方便进一步处理。

text.lower()#小写形式

去掉表情符
由于评论中常常带有表情编码，为了防止对情感特征提取的影响，我们去掉表情符，由于表情符的编码与普通字符不一样，我们需要识别表情符，这里我用的是emoji库能够识别表情符，直接替换空字符即可。

#去掉评论里面表情符
import emoji
text =df1[31]
print(text) # with emoji
text=emoji.get_emoji_regexp().sub("",text)
text

在这里插入图片描述
4. 去掉标点符号以及停用词
停用词用的是nltk库自带的英文停用词表，包含一些人称代词和介词，去掉停用词和标点符号影响。

english_punctuations = [',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#',</

最低0.47元/天解锁文章

一个追逐自我的程序员

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录