Python爬虫网页图片

最新推荐文章于 2024-03-25 13:55:15 发布

风晴03

最新推荐文章于 2024-03-25 13:55:15 发布

阅读量480

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/d276031034/article/details/71215995

版权

python 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

python环境2.7

今天是学习python第二天，做了一个抓取网页图片的爬虫。代码很简练。

#coding=utf-8
import urllib
import re

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r'src="(.+?\.jpg)" size='
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,'%s.jpg' % x)
        x+=1
    return imglist

html = getHtml("https://tieba.baidu.com/p/5052815069")

print getImg(html)

其中getHtml（）是由地址获取类文件对象，然后通过正则表达式提取我们需要的图片下载链接。下边是循环保存图片，权威解释看知识库吧O(∩_∩)O~

下边是运行截图