编者注:2019年秋季学期,郭峰老师在上海财经大学为本科生开设了一门选修课程《Python语言与经济大数据分析》,以期末作业的形式完成了考核。部分学生完成的作业思路清晰,内容完整,展现出了利用Python语言这个工具独立完成一些简单工作的能力,特精选了几个作业,精简润色后,在本公众号上展示。
文|薛宗岳(上海财经大学公共经济与管理学院2017级投资经济班本科生)
《花千骨》 是2008年独家首发于晋江文学城的一部小说,内容“主要是讲述少女花千骨与长留上仙白子画之间关于责任、成长、取舍的纯爱虐恋。”
这种网文本不会吸引我的关注,但自2015年改编自该网文的同名电视剧开始上映,由霍建华,赵丽颖主演,这为网文大大增加了知名度与关注。
图为“花千骨”2015年百度指数的搜索趋势
但另一方面,关注量也带来了不少争议,其中最大的争议在于《花千骨》抄袭的问题。批评者直言:“这是一部大拼盘作品。”[1]抄袭的最大对象是蜀客写的《重紫》。抄袭实锤,证据确凿,笔者关心的是电视剧上映对于读者对这本小说的评价有何影响。
因此本文将用python爬虫和情感分析等技巧,对文章文本进行分析,之后再对晋江文学城网友对该文的评论进行分析,主要关注于同名电视剧上映对读者的态度是否有影响,以及有何种影响。
snownpl可以进行中文分词,词性标注,情感分析,文本分类等多个工作,原理主要是朴素贝叶斯,本文主要使用其情感分析的功能,它会在0到1之间给一个分数,指态度为积极的概率。由于snownpl原生的语料库是用一个购物网站的评论,数量与种类都有局限,在准确度方面还有提升的空间。但是有一篇文章《利用500W条微博语料对评论进行情感分析》按步骤阐述了怎么利用500万条微博的预料对snownpl进行训练与改进[2],本文将根据这篇教程操作