爬虫IP代理池代码记录

最新推荐文章于 2024-07-19 17:57:00 发布

空城机

最新推荐文章于 2024-07-19 17:57:00 发布

阅读量607

点赞数

分类专栏： python 文章标签：爬虫 python proxy

本文链接：https://blog.csdn.net/qq_36171287/article/details/113095615

版权

python 专栏收录该内容

47 篇文章 7 订阅

订阅专栏

本文介绍了如何使用Python进行网络爬虫时，通过获取并使用免费的IP代理池来防止因频繁访问同一网站导致的IP被封锁问题。代码示例展示了从国内高匿代理网站抓取IP地址，并随机选择一个代理IP用于请求，以降低被封风险。

摘要由CSDN通过智能技术生成

使用python进行爬虫访问网站时，大部分时候需要当心IP访问过于频繁而被网站封锁

这个时候就需要使用一下IP代理池了
使用的是网上的免费IP网站：国内高匿代理
在这里插入图片描述

代码：

import requests
import time
import random
from lxml import etree

#  获取
def get_ip_list(headers, page):
    ip_list = []
    for i in range(int(page)):
        # 爬取免费的IP
        url = 'https://www.kuaidaili.com/free/inha/{}/'.format(i+1)
        # print("爬取网址为：", url)
        #获取代理IP地址
        web_data = requests.get(url, headers=headers)
        if web_data.status_code == 200:
            tree0 = etree.HTML(web_data.text)
            ip_lists = tree0.xpath('//table/tbody/tr/td[@data-title="IP"]/text()');
            port_lists = tree0.xpath('//table/tbody/tr/td[@data-title="PORT"]/text()')
            type_lists = tree0.xpath('//table/tbody/tr/td[@data-title="类型"]/text()')
            # print(ip_lists)
            # print(port_lists)
            for x,y in zip(ip_lists, port_lists):
                ip_list.append(x + ":" + y)
            time.sleep(3)  # 防止访问频率过快，被封
    # print(len(ip_list))
    return ip_list

#  组建随机IP地址
def get_random_ip(ip_list):
#获取代理IP地址
    proxy_list = []
    for ip in ip_list:
        proxy_list.append('http://' + ip)
    proxy_ip = random.choice(proxy_list)
    proxies = {'http': proxy_ip}
    return proxies

if __name__ == '__main__':
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'
    }
    #获取代理IP地址
    ip_list = get_ip_list(headers=headers, page=3)
    print(ip_list)