python爬虫100例--爬虫技术--IP代理（4）

最新推荐文章于 2024-10-17 11:21:39 发布

十四楼的风

最新推荐文章于 2024-10-17 11:21:39 发布

阅读量3k

点赞数

分类专栏：爬虫技术文章标签： python 爬虫 http

本文链接：https://blog.csdn.net/qq_40260055/article/details/120454650

版权

爬虫技术专栏收录该内容

2 篇文章 0 订阅

订阅专栏

写在前面

为甚麽需要代理

这个就和网站服务器的自我保护机制相关了，我们知道通过代码访问某个网站的速度时惊人的，认为手动访问需要更多的时间。服务器未来保护自己的资源不被快速消耗，就做出对那些同一个ip地址的访问时间间隔做了要求，一般一个IP访问某个固定网站次数太多，服务器默认将该IP放入黑名单中，那么我们的访问就熄火了。所以聪明的人们就想到了，我每次访问的时候，就不断地换IP地址，混淆服务器，这样一来，就可以达到持续访问的效果了

一、代理IP的获取

一般来说，总有一群人做一些免费的服务给大家以此来吸引大家。但是我们都是价格敏感性客户，所以也只能白嫖写免费的代理ｉｐ了，不过大家也知道，免费的没有好货，这就需要我们自己来甄别了。

1.1 代理网站

快代理目前国内最好的免费白嫖代理的网站了，之前的西刺代理已经消失在这个地球上了。那么话不多说，且看如何简单获取免费IP。

import requests
from lxml import etree
url = "https://www.kuaidaili.com/free/inha/1/"
headers = {
	"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36"
}
res = requests.get(url=url, headers=headers)
content = res.text
tree = etree.HTML(content)
ips = tree.xpath('//*[@id="list"]/table/tbody/tr')
with open('ip.text','w') as f:
	for ip in ips:
		ip_address = ip.xpath('./td[1]/text()')[0]
		ip_port = ip.xpath('./td[2]/text()')[0]
		ip_type = ip.xpath('./td[4]/text()')[0]
		ip = '{ip_address}:{ip_port}'.format(ip_address=ip_address,ip_port=ip_port)
		proxy = {ip_type:ip}
		f.write(str(proxy))
		f.write('\n')

将获取到的IP存入到ip.text中，便于访问时读取。
在这里有个问题，也是小编发现了，我们从快代理网站获取到IP类型都是以大写的形式出现的，如HTTP，这个在我们需要访问网站时，requests模块对其有要求，因此建议将其转化为http形式的。

{'http': '117.88.35.71:3000'}
{'http': '60.184.202.99:3000'}
{'http': '125.87.95.116:3256'}
{'http': '47.98.183.59:3128'}
{'http': '117.88.246.225:3000'}
{'http': '27.191.60.103:3256'}
{'http': '114.98.114.40:3256'}
{'http': '182.84.144.251:3256'}
{'http': '121.230.210.245:3256'}
{'http': '27.191.60.191:3256'}
{'http': '221.224.136.211:35101'}
{'http': '117.35.255.251:3000'}
{'http': '106.45.105.127:3256'}
{'http': '182.84.144.234:3256'}
{'http': '121.237.88.178:3000'}

这就是小编简单获取的一些IP。那么接下来我们试试，这些IP是否有效。

二、测试IP

import requests
url = 'http://httpbin.org/ip'
headers ={
	"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36"
}
proxys = open('ip.text','r')
for line in proxys:
	line = eval(line) #text存的都是字符串，所以将其转为dict格式
	try:
		r = requests.get(url,proxies=line,headers=headers)
		print(r.json())
	except:
		print("无效")