正则表达式在抓取网页图片中的应用-一个简单的例子

这里示范一个抓取给定网页中图片并将其下载到本地的例子,简单地涉及一些正则表达式的内容。


 明确一下任务:将下面这样一个网页中的图片抓取并全部下载到本地


方法如下:

(1)利用urllib2抓取网页的内容;

(2)发送对网页“http://www.imooc.com/course/list”的抓取请求;

(3)采用正则表达式模块 re;

  (4)  读取网页内容并保存到buf中;

 

 (5)检查一下buf的内容是否正常读取;

  (6)采用正则表达式匹配以 src= 开头,以 .jpg 结尾的字符串,因为一个这样的完整字符串代表一张图片的存放地址;

 

 

  (7)匹配结果:

 

    (8)  看来还需要提取一下其中的url部分:

   (9)将图片下载下来,并命名,保存到本地:

 

  (10)结果如下:


 这一类的问题可做相似的推广,只需要根据问题改写相应的正则表达式。

 

转载于:https://www.cnblogs.com/ping1994/p/7486969.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值