怎样用Python3 写一个爬图片的程序?

最新推荐文章于 2023-10-06 22:07:56 发布

剑齿虎的牙_XH

最新推荐文章于 2023-10-06 22:07:56 发布

阅读量1.8k

点赞数 1

分类专栏： python学习文章标签： python 图片爬虫

本文链接：https://blog.csdn.net/weixin_38257777/article/details/77776900

版权

python学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

怎样用Python3 写一个爬图片的程序?

参考网页：xiaowanggedege的专栏

缘起于一个小伙伴，在网上发帖求助一段代码，
功能是实现从百度贴吧，爬一个叫杉本有美的日本国际友人的图片。
（声明：本人之前确实不认识这个可爱美丽的女孩子）

浏览了参考网页的资料，发现代码是python2的版本，现修改如下：

import urllib.request
import re

def get_html(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html

def get_img(html):
    reg = r'src="(.*?\.jpg)" size='
    imgre = re.compile(reg)
    html = html.decode('utf-8')
    imglist = re.findall(imgre, html)
    i = 0
    for imgurl in imglist:
        urllib.request.urlretrieve(imgurl, '%s.jpg' % i)
        i += 1

html = get_html('http://tieba.baidu.com/p/4907713304')
print(get_img(html))

urllib2是Python自带的模块，在python3.x中被改为urllib.request
python3.0 中findall模块现在的参数更改了,现在读取的是bytes-like的,但参数要求是chart-like的，
所以加上一段代码 html = html.decode('utf-8')

细心的朋友可以发现，我的代码和参考资料代码里爬的网页不一样，参考资料里的是http://tieba.baidu.com/p/2166231880
查看网页源码会发现细微的不同，
原网页图片相关html代码

新网页相关html代码

根据二者的不同，修改了此条语句：

reg = r'src="(.*?\.jpg)" size='

剑齿虎的牙_XH

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
怎样用Python3 写一个爬图片的程序?

怎样用Python3 写一个爬图片的程序?参考网页：xiaowanggedege的专栏缘起于一个小伙伴，在网上发帖求助一段代码，功能是实现从百度贴吧，爬一个叫杉本有美的日本国际友人的图片。（声明：本人之前确实不认识这个可爱美丽的女孩子）浏览了参考网页的资料，发现代码是python2的版本，现修改如下：import urllib.requestimport redef get_html(ur
复制链接

扫一扫