利用Chrome的开发者工具Network选项中找到了以?query为开头的文件,这是一个Json格式的文件。
如何进行解析呢?其实里面的'end_cursor'就是通往下一页好友列表的一个密钥,而该页下关注者的信息在node下面。
废话不多说,直接上代码。
#coding:utf-8
import simplejson
from bs4 import BeautifulSoup
import requests
import time
from multiprocessing import Pool
###载入json,读取json中的end_corsor,即为下一页的标致。然后用其替换jason的LinkAdress。
headers = {"user-agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36",
"cookie":"mid=WVR6LgAEAAErsKhZPudqXWAngh6j; sessionid=IGSC57d73fa3ccf2201c703d81d9c0b9d4d3bb458c1602e61cb3d7df2bbe67047528%3AJg91xL101zJVIqP9UwfUNDJumcZVWeOf%3A%7B%22_auth_user_id%22%3A1629140917%2C%22_au