1.获取js请求
上一篇我们只抓取了一页的评论,今天我们多抓点
抓包的三个评论js请求
2.比较异同
import requests
import json
import threading
import time
import re
class cpu:
def __init__(self):
self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
def get_json(self,url):
res = requests.get(url, headers=self.headers).text
s = re.compile(r'fetchJSON_comment.*?\(')
#我第二天准备爬多页的时候发现这个无关字符竟然改变了!所以我迫不得已又改了点,利用正则进行匹配
uesless = str(s.findall(res))
#要变成字符串不然lstrip会翻脸
jd = json.loads(res.lstrip(uesless).rstrip(');'))
com_list = jd['comments']
for i in com_list