看爬b站《工作细胞》一万条评论看伙伴们在讨论什么

本文链接：https://blog.csdn.net/m0_60721649/article/details/138386851

往下滑动，会发现过一段时间，会出现一个fetch，右键打开后发现，里面就是20条记录，有所有我们需要的内容，json格式。

所以现在需要做的就是去找这些json文件的路径的规律。多看几条之后，就发现了规律：

第一个json：

**https://bangumi.bilibili.com/review/web_api/short/list?**media_id=102392&folded=0&page_size=20&sort=0

第二个json：

https://bangumi.bilibili.com/review/web_api/short/list?media_id=102392&folded=0&page_size=20&sort=0&cursor=76553500953424

第三个json：

https://bangumi.bilibili.com/review/web_api/short/list?media_id=102392&folded=0&page_size=20&sort=0&cursor=76549205971454

显然所有的json路径的前半部分都是一样，都是在第一条json之后加上不同的cursor = xxxxx，所以只要能找到cursor值的规律，就可以用循环的办法，爬完所有的json，这个值看上去没什么规律，最后发现，每一个json路径中cursor值就藏在前一个json的最后一条评论中

在python中可以直接把json转成字典，cursor值就是最后一条评论中键cursor的值，简直不要太容易。

所以爬的思路就很清晰了，从一个json开始，爬完20条评论后，获取最后一个评论中的cursor值，更改路径之后获取第二个json，重复上面的过程，直到爬完所有的json。

至于如何知道爬完了所有json，也很容易，每个json中一个total键，表示了当前一共有多少条评论，所以只需要写一个while循环，当爬到的评论数达到total值时停止。

爬的过程中还发现，有些json中的评论数不够20条，如果每次用20去定位，中间会报错停止，需要注意一下。所以又加了一行代码，每次获得json后，通过**len()**函数得到当前json中一共包含多少条评论，cursor在最后一个评论中。

以上是整个爬的思路，我们最终爬到以下信息

需要说明的地方，一个是liked按照字面意思应该是用户的点赞数,但爬完才发现全是0，没有用。另一个是关于时间，里面有ctime和mtime两个跟时间有关的值，看了几个，基本都是一样的，有个别不太一样，差的不多，就只取了ctime，我猜可能一个是点击进去的时间，一个是评论提交时间，但没法验证，就随便取一个算了，ctime的编码很奇怪，比如某一个是ctime = 1540001677，渣渣之前没有见过这种编码方式，请教了大佬之后知道，这个是Linux系统上的时间表示方式，是1970年1月1日0时0分0秒到当时时点的秒数，python中可以直接用time.gmtime()函数转化成年月日小时分钟秒的格式。还有last_ep_index里面存的是用户当前的看剧状态，比如看至第13话，第6话之类的，但后来发现很不准，绝大多数用户没有last_ep_index值，所以也没有分析这个变量。

代码如下

 1import requests
 2from fake_useragent import UserAgent
 3import json
 4import pandas as pd
 5import time
 6import datetime
 7headers = { "User-Agent": UserAgent(verify_ssl=False).random}
 8comment_api = 'https://bangumi.bilibili.com/review/web_api/short/list?media_id=102392&folded=0&page_size=20&sort=0'
 9
10# 发送get请求
11response_comment = requests.get(comment_api,headers = headers)
12json_comment = response_comment.text
13json_comment = json.loads(json_comment)
14
15total = json_comment['result']['total']
16
17cols = ['author','score','disliked','likes','liked','ctime','score','content','last_ep_index','cursor']
18dataall = pd.DataFrame(index = range(total),columns = cols)
19
20
21j = 0
22while j <total:
23    n = len(json_comment['result']['list'])
24    for i in range(n):
25        dataall.loc[j,'author'] = json_comment['result']['list'][i]['author']['uname']
26        dataall.loc[j,'score'] = json_comment['result']['list'][i]['user_rating']['score']
27        dataall.loc[j,'disliked'] = json_comment['result']['list'][i]['disliked']
28        dataall.loc[j,'likes'] = json_comment['result']['list'][i]['likes']
29        dataall.loc[j,'liked'] = json_comment['result']['list'][i]['liked']
30        dataall.loc[j,'ctime'] = json_comment['result']['list'][i]['ctime']
31        dataall.loc[j,'content'] = json_comment['result']['list'][i]['content']
32        dataall.loc[j,'cursor'] = json_comment['result']['list'][n-1]['cursor'] 
33        j+= 1
34    try:        
35        dataall.loc[j,'last_ep_index'] = json_comment['result']['list'][i]['user_season']['last_ep_index']
36    except:
37        pass
38
39    comment_api1 = comment_api + '&cursor=' + dataall.loc[j-1,'cursor'] 
40    response_comment = requests.get(comment_api1,headers = headers)
41    json_comment = response_comment.text
42    json_comment = json.loads(json_comment)
43
44    if j % 50 ==0:
45        print('已完成 {}% !'.format(round(j/total*100,2)))
46    time.sleep(0.5)
47
48
49
50dataall = dataall.fillna(0)
51
52def getDate(x):
53    x = time.gmtime(x)
54    return(pd.Timestamp(datetime.datetime(x[0],x[1],x[2],x[3],x[4],x[5])))
55
56dataall['date'] = dataall.ctime.apply(lambda x:getDate(x))
57
58dataall.to_csv('bilibilib_gongzuoxibao.xlsx',index = False)

03 影评分析

最终一共爬到了17398条影评数据。里面的date是用ctime转过来的，接下来对数据进行一些分析，数据分析通过python3.6完成，代码见文末。