很多爬虫大佬都会建立自己的,IP 代理池,你想知道 IP 代理池是如何创建的吗?
如果你恰巧有此需求,欢迎阅读本文。
本案例为爬虫 120 例专栏中的一例,顾使用 requests
+ lxml
进行实现。
从 89IP 网开始
代理 IP 目标网站之一为:https://www.89ip.cn/index_1.html,首先编写随机返回 User-Agent
的函数,也可以将该函数的返回值设置为请求头,即 headers
参数。
def get_headers():
uas = [
"Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"