爬多页图片

最新推荐文章于 2022-02-28 16:41:35 发布

做正义的朋友

最新推荐文章于 2022-02-28 16:41:35 发布

阅读量166

点赞数

分类专栏： python 文章标签： python 爬虫图片

本文链接：https://blog.csdn.net/qq_40024605/article/details/79067580

版权

python 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

既然能爬单页的图片了，接下来就要爬多页的啦

任务：爬取某壁纸网站的壁纸

# -*- coding: utf-8 -*
import urllib
import re

def getHtml(url):
      page=urllib.urlopen(url)
      html=page.read()
      return html

def getImg(html):
    print'开始执行'
    reg =r'src="(.*?\.jpg)" alt="'
    imgre =re.compile(reg)
    imglist=re.findall(imgre,html)
    if i==1:
        x=0
    else:
        x=17*i
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,'%s.jpg' % x)
        x+=1

之前的代码和爬单页的代码一样，那怎样实现爬多页呢，通过观察，一个网站的网页的网址是有一定的规律的
想我爬的这个

http://www.ivsky.com/bizhi/index_%s.html只有index后边的数字不同，并且是由1逐渐递增的

所以用一个for循环来遍历啊
for i in range( 1, 5): url = "http://www.ivsky.com/bizhi/index_%s.html"%i html=getHtml(url) getImg(html)

爬取结果

（该网站每页由18张哦）

做正义的朋友

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬多页图片

既然能爬单页的图片了，接下来就要爬多页的啦任务：爬取某壁纸网站的壁纸# -*- coding: utf-8 -*import urllibimport redef getHtml(url): page=urllib.urlopen(url) html=page.read() return htmldef getImg(html): print...
复制链接

扫一扫