python中代理IP的获取

最新推荐文章于 2023-06-02 18:43:41 发布

刘小航9527

最新推荐文章于 2023-06-02 18:43:41 发布

阅读量7.2k

点赞数 1

分类专栏： python

本文链接：https://blog.csdn.net/qq_40594554/article/details/84979960

版权

python 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

在学习爬虫时，我们经常遇到被限制ip的情况如何获取，下面我们介绍如何获取免费ip的方法：
用爬虫爬取其相关数据：
我们采集的ip网址为：

https://www.xicidaili.com/

如图：

在这里插入图片描述

下面分析其代码：

from bs4 import BeautifulSoup
import requests
import random

导入上述模块即可；

1.解析其网页：

def get_ip_list(url, headers):
    web_data = requests.get(url, headers=headers)
    soup = BeautifulSoup(web_data.text, 'lxml')
    ips = soup.find_all('tr')
    ip_list = []
    for i in range(1, len(ips)):
        ip_info = ips[i]
        tds = ip_info.find_all('td')
        ip_list.append(tds[1].text + ':' + tds[2].text)
    return ip_list

2.数据处理

def get_random_ip(ip_list):
    proxy_list = []
    for ip in ip_list:
        proxy_list.append('http://' + ip)
    proxy_ip = random.choice(proxy_list)
    proxies = {'http': proxy_ip}
    return proxies

通过上述方法即可随机获得ip地址：
下面给出完整代码：

# IP地址取自国内髙匿代理IP网站：http://www.xicidaili.com/nn/
# 仅仅爬取首页IP地址就足够一般使用

from bs4 import BeautifulSoup
import requests
import random

def get_ip_list(url, headers):
    web_data = requests.get(url, headers=headers)
    soup = BeautifulSoup(web_data.text, 'lxml')
    ips = soup.find_all('tr')
    ip_list = []
    for i in range(1, len(ips)):
        ip_info = ips[i]
        tds = ip_info.find_all('td')
        ip_list.append(tds[1].text + ':' + tds[2].text)
    return ip_list

def get_random_ip(ip_list):
    proxy_list = []
    for ip in ip_list:
        proxy_list.append('http://' + ip)
    proxy_ip = random.choice(proxy_list)
    proxies = {'http': proxy_ip}
    return proxies

if __name__ == '__main__':
    url = 'http://www.xicidaili.com/nn/'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'
    }
    ip_list = get_ip_list(url, headers=headers)
    proxies = get_random_ip(ip_list)
    print(proxies)

输出为：{'http': 'http://218.18.232.26:8080'}
为随机输出，数据不唯一。

将其调用到requests.get(url,timeout=20,proxies={'http': 'http://49.79.130.240:8118'})即可（上述ip为随机）