爬虫方法 api 层面、模拟层面、组合层面

tang_xin_cs

于 2021-05-20 14:31:43 发布

阅读量125

点赞数

分类专栏： python 文章标签： selenium mimproxy 浏览器headless phamtonjs 爬虫

本文链接：https://blog.csdn.net/weixin_43531940/article/details/114992076

版权

10 篇文章 0 订阅

订阅专栏

scrapy

反爬机制不太好用
api 的好用
cookie，加上header里缓存密钥生成不好搞。可以使用原生的js文件，找到生成的函数。
还有注意有些是有上下文的，如refer。
还有一些是限制useragent的。
一句话，与原生越像越好。
这类的研究花时间成本较高。

所见即所得
得要去掉一些 selenium的flag ，以防检测到
时间设置，元素xpath变化，尽量搜索是否唯一的类名，类选择器比较好。，情况变化。
慢

mitmproxy得到一些网络内容
selenium得到一些页面内容

selenium，登录信息保存到use-dir 。就不用登录了。
也有seleniumwire 这种综合了mitmproxy与selenium。可以攫取xhr内容，proxy.py也是一个库。

油猴插件，脚本，有什么可以拦截http请求，ajax请求，因为包含数据。得到数据发送到python 处理或者保存本地？
再用js 脚本驱动页面。

目前，好像我没有找到好用的。可能浏览器层面。。。？phamtonjs是一个headless的浏览器，与chrome的headless。它可以获取xhr。但我没试成功。不过官方示例是成功了的。
而且手动的可以登录之类的，工程量小的，手动验证，停下。

参考
下面几个有用的插件
Toggle JavaScript
FeHelper
SwitchyOmega 切换代理
Wappalyzer 分析网站使用的是什么框架
直接百度搜索浏览器爬虫插件就行

关注

专栏目录