年度总结---------记录app评论数据预处理

前言

在这里插入图片描述

好久没更新博客了,由于大多事(主要还是懒0.0)耽误了。今晚,算是我待在学校最后一个晚上了,也是今年最后一篇博客了,以此献给即将过去的2018年。
记录记录今年做的一些自认为有意义的事:

  • 今年开始我谈了人生中的第一次恋爱 (0.0) ,虽然后来因为各种原因现在分手了,但是算是今年我觉得最有意义的一件事了,至少大学有段恋爱经历,从中也学习了不少。
  • 从学校大数据工作室毕业,算是入门了大数据的大门(感觉有点难啊,感觉自己还是啥都不会,工作都找不到0.0)
  • 跟着同学大佬参加计算机大赛人工智能组,水了个国二,申请了个专利,虽然有点水,也算是接触了比赛氛围以及学术专利怎么发表。
  • 参加考研,懵懵懂懂踏上了考研的征程,由于自己私事以及意志力不坚定,导致复习的并不是很好,但是不论结果如何,我觉得能坚持下去也算是一种耐力和勇气的体现(0.0)
  • 考完试后就开始做老师给的项目任务,直到现在。

人生路越走越觉得自己很渺小,一些事的无可奈何与无能为力造成自己很长一段时间迷失了自我,失去了初心,或许人只有越发觉得自己的渺小,才有更大的动力去前进吧,希望自己脚踏实地、且行且珍惜,2019冲鸭!!!

Google Play app评论分析

  • 评论数据预处理

这里用的是从google play爬取的100万条用户评论数据,由于我没参与爬取工作,所以就不谈评论爬取。如下图,一条用户评论我们需要数据预处理,下面介绍一些预处理操作。
在这里插入图片描述

  1. 去掉非英文的评论
    首先,我们去掉非英文的评论,因为google play支持其他语言用户评论,这里去掉干扰语言。因为Google的基于java的语言检测库版本太老,而且在python里面用起来不方便,所以我在github上面找到比较新的基于python的langid库,实验效果还不错。
    在这里插入图片描述
print(langid.classify("我爱中国"))
print(langid.classify("i love China"))
print(langid.classify("わたしは中国を愛している"))#日文
print(langid.classify("나는 중국을 사랑 한다"))#韩文
print(langid.classify("J’aime la Chine"))#法文

在这里插入图片描述

  1. 评论转换为小写形式
    转换小写形式,方便进一步处理。
text.lower()#小写形式
  1. 去掉表情符
    由于评论中常常带有表情编码,为了防止对情感特征提取的影响,我们去掉表情符,由于表情符的编码与普通字符不一样,我们需要识别表情符,这里我用的是emoji库能够识别表情符,直接替换空字符即可。
#去掉评论里面表情符
import emoji
text =df1[31]
print(text) # with emoji
text=emoji.get_emoji_regexp().sub("",text)
text

在这里插入图片描述
4. 去掉标点符号以及停用词
停用词用的是nltk库自带的英文停用词表,包含一些人称代词和介词,去掉停用词和标点符号影响。

english_punctuations = [',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@'
  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值