爬虫-想法

动态爬取
原理:用户-浏览器-网页代码响应-发送请求-服务器接收请求并返回数据
一般抓取方法:

  1. 用selenium + chromedriver 模拟浏览器行为进行操作
  2. 用chrome + F12 抓包分析,写出相应代码

想法:跳过网页渲染和网页代码响应

  1. 先用浏览器操作过程,期间抓取post包和接收包
  2. 得到操作和收发包的关联,选取需要的关联即浏览器操作
  3. 二次抓取:根据接收包和post包 的信息和顺序模拟用户发送请求

难点:
浏览器操作和发包关联

疑问:
怎么实现

缺点:有些内容需要运行 js 代码才能完成

启示:反爬虫的技术有很多方式,用js只是其中一中。最根本的解决办法还是要模拟人视觉获取

改进:第二步骤:得到操作,网页代码运行,收发包的关联,选取需要的关联。
即 去掉不必要的渲染,代码运行,收发包以在完全模拟用户行为的前提下增加爬取速度

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值