由于公司需要监控到不同时间段用户观点的变化,需要爬取各个平台下我们用户的评论,因此,B站评论爬取的需求诞生啦!!~~看了网上的其他教程,都没有我这个类型的(大多数是普通的up上传的视频),我这个呢,是官方游戏主页(也许可以这么叫吧,我也不知道,反正就是从地址上看就不大一样,是http://www.biligame.com开头的)
那么这种特别一点的评论要怎么爬取呢?接下来我们一起来解决吧~
查找评论
在进行爬虫之前,我们先进入游戏中,看一看评论长什么样。
输入你关注的游戏的网址,点击评论
选择一条评论,按下F12,选择network,可以看到评论返回的内容
这里可能会踩坑,就是你直接F12选择network 出来,像其他教程一样去找web?开头的返回,是没有response的、你需要首先选择一条评论,F12,在element里面找到它,然后再点击network,然后选择page?开头的返回
观察这个评论的返回地址
可以看到,page_num=1,表示当前是第一页。我们修改page_num就可以对评论进行翻页
开始爬虫
既然评论的地址已经知道了,那么就让python小朋友来帮助我们爬取数据吧
在开始之前需要说明一点:
为了防止被反爬,每爬取一页都随机停顿1~3秒。如果以后b站的反爬更严格的话,可以把这个时间加长一点点
下面上代码
import requests
import json
import random
import os
import pandas as pd
import time
import sys
def B_station_scrapy():
#您要爬取的网页,