解决简单的反爬问题(使用python)

一、技术和方法:

1、在请求头headers里设置User-Agent(浏览器内核);

2、当碰到post请求方式时,一般需要在请求头里设置Cookie的数据;

3、当本机ip由于短时间频繁访问受限时,可以设置代理ip(免费ip推荐西次代理);

4、如果需要登录的,可以通过fiddler抓包工具抓取登录cookie和表单信息,然后headers设置cookie信息,data设置表单信息;

5、对应动态变化的cookie可以通过cookiejar来获取cookie;

6、使用selenium来模拟真实的浏览器进行获取数据(得到的数据相对比较多)。

二、反爬过程:

1、判断请求的方式,get还是post;

2、如果是get,观察地址栏的变化规律,如果是post请求,请求头一般需要加cookie,data也需要完整的数据;

3、爬取到数据后进行过滤时如果出现数据为空,要注意是否是动态加载,查找的接口是不是不对;

4、如果接口不对,需要通过浏览器的网络接口慢慢查找,注意接口名称和XHR中的接口,通过response一栏的数据来查找;

 

转载于:https://www.cnblogs.com/Hlin/p/9349465.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值