常见的反扒机制及解决办法

常见的反扒机制及解决办法

总结了工作中遇到的反爬机制及解决办法或思路,便于日后用到

1、User-Agent,客户端版本信息
2、request, Method方式不同,常见GET、POST
+ post,有下面这种色儿的:
  formData = {
      '__EVENTVALIDATION': eventAliation,
      '__VIEWSTATE': viewState,
      '__EVENTTARGET': eventTaget,
      # 'pageIndex': int(pageIndex) + 1,
  }
3、cookie限制
4、访问频率,延时访问
5、IP,IP代理
6、在html中动手脚,jquery
+ 加一些无意义的字符
+ 使用lxml解, 正则过滤 或 其他筛选方法
+ 源码查看目标信息,根据实际规则 过滤出 自己的目标信息
+ 
7、Ajax动态加载 具体信息在json 中
+ 直接json.loads(html.text) 加载、解析,简单
8、美团系,数字、文字woff字体加密
+ 找到目标woff文件,加载出字体库的内容,用QQ截图、识图,识别文字
+ 加载 `from fontTools.ttLib import TTFont`,构造字典,
+ 在获取网页内容后,理解替换掉加密部分,
+ 再xpath解析 或 其他方式解析
+ 
+ 听说有每个子页面都是使用新的woff字体库,这种比较变态的反爬,还未遇到,遇到的时候再说。。。。
++




遇到反爬,但未解决的记录

1、大众点评获取店铺联系电话,需要登录,session 被封,无法请求到目标网页,这个是不是只有多账号才能解决?
2、58 查询企业招聘信息,使用代理IP无法请求到内容,,,,这个或许是代理IP池不够大,后续优化一下再看看
3、58 手势验证码。。。这个是因为没时间搞,,,后面看看什么情况。。。。
4、滑块破解,一般有背景图片和缺口图片做对比
+ 但是 58 的就只有带缺口的图片,这就给定位缺口位置带来了麻烦,之前都是使用像素对比,现在咋弄???
ds
5、搜狗平台验证码图片无法使用ocr解析??是不是图片太小了???待学习中,,,,,
sad




有名的反爬机制,还没遇到的记录

蜜罐技术
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值