运行环境:python 3.7.3
所需库:
- requests
- lxml
- time
- multiprocessing
- sys
说明:西刺代理对一天内爬取的次数有限制,超出后会被封ip
import requests
from lxml import etree
import time
from multiprocessing import Pool
import multiprocessing
import sys
def get_single(url): #爬出单页上的所有代理ip
r=requests.get(url,headers=head)
if r.status_code==503:
print('由于爬取次数过多,你的Ip已经被封')
sys.exit(0)
content=etree.HTML(r.text)
ip=content.xpath('//table[@id="ip_list"]/tr/td[2]/text()')
duankou=content.xpath('//table[@id="ip_list"]/tr/td[3]/text()'