一.
首先进行抓包分析,,,随便找个主页,f12,关键词搜索,发现这个包是以post开头
二.查看请求参数:
我们复制curl在spiderbox里面快速形成请求
对headers,params进行尝试删减,最后发现只需要这些参数,其中只有sec_user_id是加密的
修改count变为100发现他发的包并没有100个,原因在于
post?device。。。的包中有个max_cursor参数,请求载荷中也有一个这样的参数,每次请求的数据中max_cursor是下一个请求的载荷,,,同时has_more为1时候代表还能请求,0为不能请求,我们做如下判断
对于sec_user_id这个参数是作者本身的表示,在url一栏中体现
我们通过自动化drissionpage获取,通过re进行匹配,最终得到最后的载荷
最后进行抓包,发现
点赞,收藏等都在这里,进行提取,最后用pandas转化为execl
最后发现cookie很容易过期,批量爬取有点困难,,,,我们采用drissoinpage进行自动化获取
完美解决。
完整代码请在知识星球https://t.zsxq.com/95LBh:
api解释:
请你第一次运行先按0,进行登录(或者触发反爬的时候),登录完成之后,按1进行爬取,
choose为你要爬取的博主,为方便爬取,请你每次爬2个。