【Pyppeteer或Puppeteer】网络爬虫反反爬小技巧【Pyppeteer完美突破被js或服务器识别检测的解决方案】

参考别人的文档:https://blog.csdn.net/qq_36957681/article/details/110846217

 

通常来说,使用Pyppeteer需突破被检测识别的方案首先必须做到最基本的三个部分:

第一步:启动浏览器增加移除参数【--enable-automation】是必须的,参数:https://segmentfault.com/a/1190000019539509

const browser = await puppeteer.launch({ignoreDefaultArgs: ["--enable-automation"]});

 

第二步:使用pyppeteer_stealth框架,隐藏!参考官方:https://pypi.org/project/pyppeteer-stealth/

 

第三步【最核心的地方】:很多网站会根据你页面延迟的情况来判断是不是机器人!

1、你进入页面时是不是延迟几秒

2、每个input的输入是否为人工输入【每个字符是否间隔多少毫秒】

3、你提交按钮之前,是否延迟几秒

4、其他各种延迟的限制,是否完全符合人工操作【这个是pyppeteer框架最常用的方式,必须自己调试才能确保某个网站最佳的模拟方案】

 

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值