抓取陷阱的避开

本文介绍了如何使用Python的requests库设置请求头,包括关键的User-Agent信息;处理cookies的方法,包括requests库和Selenium的使用;以及在抓取过程中需要注意的合理时间间隔和应对表单反扒的策略,如检查隐藏字段的可见性。
摘要由CSDN通过智能技术生成

一.请求头设置

使用requests库可以很方便的做到:

import requests
headers = {}
res = requests.get(url, headers = headers)

将请求头信息放进headers字典中即可,其中最重要也是最关键的是UA信息,你可以用浏览器的,也可以随机从其他人提供的UA库中抽取,如:UA

其他的参数可以视情况进行删减与更改

二.  关于cookie

首先是与requests库相关的用法,请参考这篇博文:

表单提交、cookie获取--穿越登录窗口进入页面

其次,在使用selenium是可用driver.get_cookie()来获取cookie并对其进行处理,selenium的具体用法请参考:selenium使用笔记

 三. 注意抓取的时间间隔,合理设置睡眠:

import time
time.sleep()

四. 表单反制

在许多表单提交的环节,网站为反扒设置反制手段,其中最多的就是隐藏字段值:

即对某些字段值的属性设为用户不可见,仅浏览器可以识别:type = 'hidden'

如果你在提交表单的时候提交了隐藏字段值,将会被视作机器人

解决方法,在填写时对字段属性进行排查,也可以使用selenium的is_displayed()方法来检查某元素是否可见。

  • 29
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值