前言
好久没更新博客了,由于大多事(主要还是懒0.0)耽误了。今晚,算是我待在学校最后一个晚上了,也是今年最后一篇博客了,以此献给即将过去的2018年。
记录记录今年做的一些自认为有意义的事:
- 今年开始我谈了人生中的第一次恋爱 (0.0) ,虽然后来因为各种原因现在分手了,但是算是今年我觉得最有意义的一件事了,至少大学有段恋爱经历,从中也学习了不少。
- 从学校大数据工作室毕业,算是入门了大数据的大门(感觉有点难啊,感觉自己还是啥都不会,工作都找不到0.0)
- 跟着同学大佬参加计算机大赛人工智能组,水了个国二,申请了个专利,虽然有点水,也算是接触了比赛氛围以及学术专利怎么发表。
- 参加考研,懵懵懂懂踏上了考研的征程,由于自己私事以及意志力不坚定,导致复习的并不是很好,但是不论结果如何,我觉得能坚持下去也算是一种耐力和勇气的体现(0.0)
- 考完试后就开始做老师给的项目任务,直到现在。
人生路越走越觉得自己很渺小,一些事的无可奈何与无能为力造成自己很长一段时间迷失了自我,失去了初心,或许人只有越发觉得自己的渺小,才有更大的动力去前进吧,希望自己脚踏实地、且行且珍惜,2019冲鸭!!!
Google Play app评论分析
- 评论数据预处理
这里用的是从google play爬取的100万条用户评论数据,由于我没参与爬取工作,所以就不谈评论爬取。如下图,一条用户评论我们需要数据预处理,下面介绍一些预处理操作。
- 去掉非英文的评论
首先,我们去掉非英文的评论,因为google play支持其他语言用户评论,这里去掉干扰语言。因为Google的基于java的语言检测库版本太老,而且在python里面用起来不方便,所以我在github上面找到比较新的基于python的langid库,实验效果还不错。
print(langid.classify("我爱中国"))
print(langid.classify("i love China"))
print(langid.classify("わたしは中国を愛している"))#日文
print(langid.classify("나는 중국을 사랑 한다"))#韩文
print(langid.classify("J’aime la Chine"))#法文
- 评论转换为小写形式
转换小写形式,方便进一步处理。
text.lower()#小写形式
- 去掉表情符
由于评论中常常带有表情编码,为了防止对情感特征提取的影响,我们去掉表情符,由于表情符的编码与普通字符不一样,我们需要识别表情符,这里我用的是emoji库能够识别表情符,直接替换空字符即可。
#去掉评论里面表情符
import emoji
text =df1[31]
print(text) # with emoji
text=emoji.get_emoji_regexp().sub("",text)
text
4. 去掉标点符号以及停用词
停用词用的是nltk库自带的英文停用词表,包含一些人称代词和介词,去掉停用词和标点符号影响。
english_punctuations = [',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#',</