Python 爬虫：获取网页图片

最新推荐文章于 2024-07-22 17:25:13 发布

薛定谔的DBA

最新推荐文章于 2024-07-22 17:25:13 发布

阅读量2.2k

点赞数 2

分类专栏： Python

本文链接：https://blog.csdn.net/kk185800961/article/details/53885191

版权

Python 专栏收录该内容

41 篇文章 4 订阅

订阅专栏

脚本为获取某一个网页页面上的图片：（36 氪为栗）

#coding=utf-8
import urllib
import re
import os

weburl = "http://36kr.com/" #爬取网页
tardir = "F:\\0000\\kk"     #保存路径

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def destDir(path):
    if not os.path.isdir(path): 
        os.makedirs(path)
    p = path.split('\\')[-1]
    if not (p==''):
        path = path + '\\'
    return path

def getSuffix(fileurl):
    return fileurl.split('.')[-1]

def getImg(html):
    reg = r'(http.:[\S]*?.(jpg|jpeg|png|gif|bmp|JPG|JPEG|PNG|GIF|BMP))'
    imgall = re.findall(reg,html)
    destPath = destDir(tardir)
    x = 1
    for imgurl,i in imgall:
        urllib.urlretrieve(imgurl,destPath+'%s.' % x +getSuffix(imgurl))
        print "完成 ".decode('UTF-8').encode('GBK') + imgurl
        x+=1

html = getHtml(weburl)
print getImg(html)
os.system("pause")

现在进行升级，下载某个网站各个页面图片：（漏洞盒子为栗）

打开网址 https://www.vulbox.com/board 点击几页数据，可以发现规律，网站最后一个数字为页码变量：

https://www.vulbox.com/board/internet/page/页数，按照这个规律，可以循环读取每个页面！

#coding=utf-8
import urllib
import re
import os

weburl = "https://www.vulbox.com/board"
tardir = "F:\\0000\\kk"

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def destDir(path):
    if not os.path.isdir(path): 
        os.makedirs(path)
    p = path.split('\\')[-1]
    if not (p==''):
        path = path + '\\'
    return path

def getSuffix(fileurl):
    return fileurl.split('.')[-1]

def getImg(html,n):
    reg = r'(http.:[\S]*?.(jpg|jpeg|png|gif|bmp|JPG|JPEG|PNG|GIF|BMP))'
    imgall = re.findall(reg,html)
    destPath = destDir(tardir)
    x = 1
    for imgurl,i in imgall:
        urllib.urlretrieve(imgurl,destPath+'%s_' % n +'%s.' % x +getSuffix(imgurl))
        print "完成 ".decode('UTF-8').encode('GBK') + imgurl
        x+=1

n = 1
for n in range(1,6): #取前5页
    pageurl = weburl + "/internet/page/" + str(n)
    html = getHtml(pageurl)
    print getImg(html,n)
    print "【完成页面】 ".decode('UTF-8').encode('GBK') + pageurl 
    n = n + 1

os.system("pause")