scrapy
反爬机制不太好用
api 的好用
cookie,加上header里缓存密钥生成不好搞。可以使用原生的js文件,找到生成的函数。
还有注意有些是有上下文的,如refer。
还有一些是限制useragent的。
一句话,与原生越像越好。
这类的研究花时间成本较高。
selenium
所见即所得
得要去掉一些 selenium的flag ,以防检测到
时间设置,元素xpath变化 ,尽量搜索是否唯一的类名,类选择器比较好。,情况变化。
慢
selenium +mitmproxy
mitmproxy得到一些网络内容
selenium得到一些页面内容
selenium,登录信息保存到use-dir 。就不用登录了。
也有seleniumwire 这种综合了mitmproxy与selenium。可以攫取xhr内容,proxy.py也是一个库。
浏览器层面
油猴插件,脚本,有什么可以拦截http请求,ajax请求,因为包含数据。得到数据发送到python 处理或者保存本地?
再用js 脚本驱动页面。
目前,好像我没有找到好用的。可能浏览器层面。。。?phamtonjs是一个headless的浏览器,与chrome的headless。它可以获取xhr。但我没试成功。不过官方示例是成功了的。
而且手动的可以登录之类的,工程量小的,手动验证,停下。
参考
下面几个有用的插件
Toggle JavaScript
FeHelper
SwitchyOmega 切换代理
Wappalyzer 分析网站使用的是什么框架
直接百度搜索浏览器爬虫插件就行