python反爬虫技巧总结:如何限制别人用爬虫爬取你的隐私

本文总结了常见的Python反爬虫手段,包括User-Agent、Referer、Ajax、Cookie、验证码、代理IP池、请求间隔、字体反爬、正则表达式解析及pprint的使用,帮助开发者更好地保护网站数据和提升爬虫应对策略。
摘要由CSDN通过智能技术生成

在抓取对方网站、APP 应用的相关数据时,经常会遇到一系列的方法阻止爬虫。

网站APP们这么做的原因,一是为了保证服务的质量,降低服务器负载,二是为了保护数据不被获取。爬虫与反爬虫的斗争经久不衰,

这里给大家总结出了我们在爬取数据时常见的反爬虫手段。

1、User-Agent

网络请求中,User-Agent 是表明身份的一种方式,网站可以通过User-Agent来判断用户是使用什么浏览器访问。不同浏览器的User-Agent是不一样的

例如,我们在windows上面的Chrome浏览器,它的User-Agent是:

但是如果我们使用Python的Requests直接访问网站,除了网址不提供其他的信息,那么网站收到的User-Agent是空。

这个时候网站就知道我们不是使用浏览器访问的,于是它就可以拒绝我们的访问。

fromfake_useragentimportUserAgent

foriinrange(1,11):

ua = UserAgent().random

print(f'第{i}次的ua是', ua)

'''

第1次的ua是 Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.62 Safari/537.36

第2次的ua是 Mozilla/5.0 (Windows NT 6.1; rv:21.0) Gecko/20130401 Firefox/21.0

第3次的ua是 Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_6; es-es) AppleWebKit/533.20.25 (KHTML, like Gecko) Version/5.0.4 Safari/533.20.27

第4次的ua是 Mozilla/5.0 (X11; CrOS i686 4319.74.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.57 Safari/537.36

第5次的ua是 Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_6; fr-ch) AppleWebKit/533.19.4 (KHTML, like Gecko) Version/5.0.3 Safari/533.19.4

第6次的ua是 Mozilla/5.0 (X11; OpenBSD i386) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36

第7次的ua是 Mozilla/5.0 (X11; NetBSD) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.116 Saf

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值