使用进程爬取西祠代理

该博客介绍如何利用进程技术爬取西祠胡同的代理IP,通过测试每个IP的可用性,将有效的IP添加到列表并显示,无法使用的则忽略,并通过访问百度网站进行验证。
摘要由CSDN通过智能技术生成

要求:爬取西祠代理ip,可用的ip加入列表中显示出来,不能用的pass,访问百度网测试

(普通爬取,不用进程)

import requests
from lxml import etree
import time
def get_all_proxy():
    url = 'http://www.xicidaili.com/nn/1'
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
    }
    response = requests.get(url,headers=headers)
    # with open('xici.html','wb') as f:
    #     f.write(response.content)
    # 只需要ip及端口号,提取
    html_ele = etree.HTML(response.text)
    ip_ele = html_ele.xpath('//table[@id="ip_list"]/tr/td[2]/text()')  #要看打印在html中的文件,因为有的网页中有而没打印出来,以自己打印的为主
    port_ele = html_ele.xpath('//table[@id="ip_list"]/tr/td[3]/text()')
    # print(len(ip_ele))
    # print(le
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值