【爬虫学习6】爬虫自动获取并使用代理ip

EmpGro

于 2017-10-24 16:45:29 发布

阅读量9.5k

点赞数 3

分类专栏： ======python====== 网络爬虫文章标签：爬虫 requests 代理ip

本文链接：https://blog.csdn.net/linangfs/article/details/78331419

版权

本文介绍如何使用爬虫自动获取并验证代理IP，以防止爬虫因频繁请求同一网站导致IP被封。主要步骤包括：从代理网站抓取IP和端口、验证IP可用性、格式化IP地址以及在requests中使用代理IP进行爬取。通过验证IP的两种方法，以及在Requests中的代理设置，确保爬虫的稳定运行。

摘要由CSDN通过智能技术生成

当同一ip短时间内多次链接同一网站，很可能导致ip被封，所以需要利用代理ip防止封禁。
代理ip可以通过百度很容易的获取比如西刺代理
但是，很明显我们用爬虫的人，不是会一个个自己复制粘贴的人，所以自然想到用爬虫解决问题。
-本文不区分url和ip，为简化都叫成ip
-文中有个特别注意一定要看
-本文全部代码见于我的Git

主要思路

1.从代理网站爬取IP地址及端口号并存储
2.验证ip能否使用
3.格式化ip地址
4.在requests中使用代理ip爬网站

具体实现

1.爬取代理IP

这一步很简单就直接上代码了

url = 'http://www.xicidaili.com/wt'
def get_ip_list(url, headers):
    """ 从代理网站上获取代理"""
    ip_list = []
    page = requests.get(url, headers=headers)
    soup = BeautifulSoup(page.text, 'lxml')
    ul_list = soup.find_all('tr', limit=20)
    print(len(ul_list))
    for i in range(2, len(ul_list)):
        line = ul_list[i].find_all('td')
        ip = line[1].text
        port = line[2].text
        address = ip +