爬虫---反反爬---headers

1.一般可直接全复制进去

2.部分网站放入部分参数才可以,全部放进去反而获取不到理想页面,比较重要的3个:UA,Cookie,Referer。

3:可用pycharm正则处理复制过来的headers,也可写脚本处理。

 其他参数的解释:

  1. Connection:链接类型 keep-alive 支持使用长连接,复用上次连接,因为有三次握手,四次挥手消耗时间,不断开连接,直接使用上次的连接

  2.  Upgrade-Insecure-Requests:浏览器http升级为HTTPS请求,告诉服务器,自己支持这种操作,也就是我能读懂你服务器发过来的上面这条信息

  3. Accept:传输文件类型,浏览器接受什么数据 q 是权重,体现执行的先后

  4. Referer:页面跳转处 ,标识当前url地址是哪里过来的

  5. Accept-Encoding:文件编解码格式,压缩方式,文件压缩传输增快

  6. x-requested-with :XMLHttpRequest:是Ajax 异步请求

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值