B站点评数据的文本挖掘
本次的挖掘思路借鉴了中国大学MOOC的《媒体大数据挖掘与案例实战》,感兴趣的朋友可以自行观看,话不多说直入主题,本文是我另一篇博客的后续。
不清楚如何爬取B站数据的朋友可以看看我之前的博客:
如何爬取B站数据
话不多说直接上思路和代码。
爬虫
首先使用request库爬取点评和评分,原本打算继续对《异度侵入》进行挖掘的,但无奈该动漫在B站的宽松评分环境下平均分直接达到9.9分,不适合拿来做情感分析。于是更换了另一部评分较低的动漫《昴宿七星》,该动漫的平均分5.8较为均衡,好坏参半。
#%%#获取
import requests
import xlsxwriter
comments=[]#储存点评
scores=[]#储存评分
#先手动采集参数并观察规律,找出规律后可以批量生成,但要注意我们找出的“规律”并不一定准确,所以为了防止评论的重复写入需要在写入之前做判断以达到去重的效果。
cursorlist=[78662340896220,78606505670678,78310141682418,78026682130891,77906414447416,77811930278405,77691675188691,77588590988964,77408203374014,77219222456991,77021654784008,76961523583351,76888508943298,76802609463418,76721006017734,76678056213807,76652286323474,76626515527799,76600745678589,76562090901333,76549205969716,76540615989844,76523436094700,76514846135826,76510551136568,76506256175770,76506256140370,76501961139907,76497666161968,76493371186529,76489076240639,76484781216527,76480486120456,76476191240997,76467601312881,76467601274060,76463306308718,76459013556430,76454716373761,76403177513534,76364523885229,76317278036745,76274328311427,76214198672961,76166953939628,7613688910434