**
爬取代理ip并验证(快代理&西祠代理)
**
最近公司有些爬虫需求,有爬虫,就需要有代理IP池(为什么需要?自己想。),但是吧,只能用免费的,原因都懂,那来吧!
- 快代理:https://www.kuaidaili.com/free/inha/1/
- 西祠代理:http://www.xicidaili.com/nn/1/(我今天发现登不上,代码也贴上吧,赠人玫瑰,手有余香!)
-
快代理
快代理
# 快代理
import requests
from lxml import etree
# 将能用的代理IP追加到文件
def write_proxy(proxies):
print(proxies)
for proxy in proxies:
with open("./1688-data/ip_proxy.txt", 'a+') as f:
print("正在写入:", proxy)
f.write(proxy + '\n')
print("录入完成!!!")
# 解析网页,并得到网页中的代理IP
def get_proxy(html):
selector = etree.HTML(html)
proxies =