【道高一尺，魔高一丈】Python爬虫之如何应对网站反爬虫策略_反爬虫 request header

2401_84692456

于 2024-05-03 01:59:25 发布

阅读量492

点赞数 5

分类专栏：程序员文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/2401_84692456/article/details/138405324

版权

本文介绍了如何在Python爬虫中使用付费代理IP进行反爬策略，强调了免费代理的不可靠性，并详细讲解了验证码识别，包括图形验证码、滑动验证码的破解方法，以及如何结合第三方打码平台如超级鹰实现自动化识别。同时，作者提醒遵循法律边界，合理使用爬虫技术，尊重网站的robots.txt规则。

摘要由CSDN通过智能技术生成

使用代理IP解决反爬。（免费代理不靠谱，最好使用付费的。有按次数收费的，有按时长收费的，根据自身情况选择）
是什么意思呢，就是每次发送请求，让你像从不同的地域发过来的一样，第一次我的ip地址是河北，第二次是广东，第三次是美国。。。像这样：

def get_ip_pool(cnt):
	"""获取代理ip的函数"""
	url_api = '获取代理IP的API地址'
	try:
		r = requests.get(url_api)
		res_text = r.text
		res_status = r.status_code
		print('获取代理ip状态码：', res_status)
		print('返回内容是：', res_text)
		res_json = json.loads(res_text)
		ip_pool = random.choice(res_json['RESULT'])
		ip = ip_pool['ip']
		port = ip_pool['port']
		ret = str(ip) + ':' + str(port)
		print('获取代理ip成功 -> ', ret)
		return ret
	except Exception as e:
		print('get_ip_pool except:', str(e))
proxies = get_ip_pool() # 调用获取代理ip的函数
requests.get(url=url, headers=headers, proxies={'HTTPS': proxies}) # 发送请求

这样，对端服务器就会认为你/你们是很多地域的访客，就算访问很频繁，可能也不会反爬你！