爬虫爬取免费代理ip,验证代理ip有效性,保存到本地txt,建立代理池
使用多线程+队列+正则匹配,对免费代理ip网站和查询自身ip网站(验证代理ip是否有效)发送请求,如果代理ip为有效,保存至本地txt文件中,建立自己的私人有效代理ip池。
源码:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import requests
import threading
from queue import Queue
import re
from bs4 import BeautifulSoup as bs
# 获取代理ip地址网址
# http://www.xsdaili.cn/dayProxy/ip/2749.html
# 验证代理ip是否有效网址
# http://www.5dip.com/5dip/QueryIp.aspx
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'}
ip_lists = []
class Spider(threading.Thread):
def __init__(self, queue):
threading.Thread.__init__(self)
self.queue = queue
self.spider_website()
# 爬取网上免费代理ip的方法
def spider_website(self):
while not self.queue.empty()