怎样用Python3 写一个爬图片的程序?

怎样用Python3 写一个爬图片的程序?

参考网页:xiaowanggedege的专栏

缘起于一个小伙伴,在网上发帖求助一段代码,
功能是实现从百度贴吧,爬一个叫杉本有美的日本国际友人的图片。
(声明:本人之前确实不认识这个可爱美丽的女孩子)

浏览了参考网页的资料,发现代码是python2的版本,现修改如下:

import urllib.request
import re

def get_html(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html

def get_img(html):
    reg = r'src="(.*?\.jpg)" size='
    imgre = re.compile(reg)
    html = html.decode('utf-8')
    imglist = re.findall(imgre, html)
    i = 0
    for imgurl in imglist:
        urllib.request.urlretrieve(imgurl, '%s.jpg' % i)
        i += 1

html = get_html('http://tieba.baidu.com/p/4907713304')
print(get_img(html))
  • urllib2是Python自带的模块,在python3.x中被改为urllib.request
  • python3.0 中findall模块现在的参数更改了,现在读取的是bytes-like的,但参数要求是chart-like的,
    所以加上一段代码 html = html.decode('utf-8')

细心的朋友可以发现,我的代码和参考资料代码里爬的网页不一样,参考资料里的是http://tieba.baidu.com/p/2166231880
查看网页源码会发现细微的不同,
原网页图片相关html代码

新网页相关html代码

根据二者的不同,修改了此条语句:

reg = r'src="(.*?\.jpg)" size='
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值