爬虫方法 api 层面、模拟层面、组合层面

scrapy

反爬机制不太好用
api 的好用
cookie,加上header里缓存密钥生成不好搞。可以使用原生的js文件,找到生成的函数。
还有注意有些是有上下文的,如refer。
还有一些是限制useragent的。
一句话,与原生越像越好。
这类的研究花时间成本较高。

selenium

所见即所得
得要去掉一些 selenium的flag ,以防检测到
时间设置,元素xpath变化 ,尽量搜索是否唯一的类名,类选择器比较好。,情况变化。

selenium +mitmproxy

mitmproxy得到一些网络内容
selenium得到一些页面内容

selenium,登录信息保存到use-dir 。就不用登录了。
也有seleniumwire 这种综合了mitmproxy与selenium。可以攫取xhr内容,proxy.py也是一个库。

浏览器层面

油猴插件,脚本,有什么可以拦截http请求,ajax请求,因为包含数据。得到数据发送到python 处理或者保存本地?
再用js 脚本驱动页面。

目前,好像我没有找到好用的。可能浏览器层面。。。?phamtonjs是一个headless的浏览器,与chrome的headless。它可以获取xhr。但我没试成功。不过官方示例是成功了的。
而且手动的可以登录之类的,工程量小的,手动验证,停下。

参考
下面几个有用的插件
Toggle JavaScript
FeHelper
SwitchyOmega 切换代理
Wappalyzer 分析网站使用的是什么框架
直接百度搜索浏览器爬虫插件就行

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值