Python练习:爬虫练习,从一个提供免费代理的网站中爬取IP地址信息

西刺代理,http://www.xicidaili.com/,提供免费代理的IP,是爬虫程序的目标网站.

开始写程序

import urllib.request
import re

def open_url(url):
  req = urllib.request.Request(url)
  req.add_header('User-Agent', 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36')

  page = urllib.request.urlopen(req)
  html = page.read().decode('utf-8')

  return html

def get_img(html):
  p = r'(?:(?:[0-1]?\d?\d|2[0-4]\d|25[0-5])\.){3}(?:[0,1]?\d?\d|2[0-4]\d|25[0-5])'
  iplist = re.findall(p, html)

  for each in iplist:
    print(each)

if __name__ == '__main__':
  url = "http://www.xicidaili.com/"
  get_img(open_url(url))

执行程序结果如下

 

转载于:https://www.cnblogs.com/luckyleaf/p/9901339.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值