python反爬虫技巧总结：如何限制别人用爬虫爬取你的隐私

最新推荐文章于 2022-12-31 11:20:10 发布

爱摸鱼的菜鸟码农

最新推荐文章于 2022-12-31 11:20:10 发布

阅读量1.2k

点赞数 3

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/huang5333/article/details/121791628

版权

本文总结了常见的Python反爬虫手段，包括User-Agent、Referer、Ajax、Cookie、验证码、代理IP池、请求间隔、字体反爬、正则表达式解析及pprint的使用，帮助开发者更好地保护网站数据和提升爬虫应对策略。

摘要由CSDN通过智能技术生成

在抓取对方网站、APP 应用的相关数据时，经常会遇到一系列的方法阻止爬虫。

网站APP们这么做的原因，一是为了保证服务的质量，降低服务器负载，二是为了保护数据不被获取。爬虫与反爬虫的斗争经久不衰，

这里给大家总结出了我们在爬取数据时常见的反爬虫手段。

1、User-Agent

网络请求中，User-Agent 是表明身份的一种方式，网站可以通过User-Agent来判断用户是使用什么浏览器访问。不同浏览器的User-Agent是不一样的

例如，我们在windows上面的Chrome浏览器，它的User-Agent是：

但是如果我们使用Python的Requests直接访问网站，除了网址不提供其他的信息，那么网站收到的User-Agent是空。

这个时候网站就知道我们不是使用浏览器访问的，于是它就可以拒绝我们的访问。

fromfake_useragentimportUserAgent

foriinrange(1,11):

ua = UserAgent().random

print(f'第{i}次的ua是', ua)

'''

第1次的ua是 Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.62 Safari/537.36

第2次的ua是 Mozilla/5.0 (Windows NT 6.1; rv:21.0) Gecko/20130401 Firefox/21.0

第3次的ua是 Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_6; es-es) AppleWebKit/533.20.25 (KHTML, like Gecko) Version/5.0.4 Safari/533.20.27

第4次的ua是 Mozilla/5.0 (X11; CrOS i686 4319.74.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.57 Safari/537.36

第5次的ua是 Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_6; fr-ch) AppleWebKit/533.19.4 (KHTML, like Gecko) Version/5.0.3 Safari/533.19.4

第6次的ua是 Mozilla/5.0 (X11; OpenBSD i386) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36

第7次的ua是 Mozilla/5.0 (X11; NetBSD) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.116 Saf

最低0.47元/天解锁文章

爱摸鱼的菜鸟码农

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
python反爬虫技巧总结：如何限制别人用爬虫爬取你的隐私

在抓取对方网站、APP 应用的相关数据时，经常会遇到一系列的方法阻止爬虫。网站APP们这么做的原因，一是为了保证服务的质量，降低服务器负载，二是为了保护数据不被获取。爬虫与反爬虫的斗争经久不衰，这里给大家总结出了我们在爬取数据时常见的反爬虫手段。1、User-Agent网络请求中，User-Agent 是表明身份的一种方式，网站可以通过User-Agent来判断用户是使用什么浏览器访问。不同浏览器的User-Agent是不一样的例如，我们在windows上面的Chrome浏览...
复制链接

扫一扫