Python爬虫学习笔记一：简单网页图片抓取

最新推荐文章于 2024-04-16 22:07:34 发布

以后以后

最新推荐文章于 2024-04-16 22:07:34 发布

阅读量1.6w

点赞数 5

分类专栏： python学习

本文链接：https://blog.csdn.net/feimengjuan/article/details/51163803

版权

利用python抓取网络图片的步骤是：

1、根据给定的网址获取网页源代码

2、利用正则表达式把源代码中的图片地址过滤出来

3、根据过滤出来的图片地址下载网络图片

以下是比较简单的一个抓取某一个百度贴吧网页的图片的实现：

# -*- coding: utf-8 -*-
# feimengjuan
import re
import urllib
import urllib2

#抓取网页图片


#根据给定的网址来获取网页详细信息，得到的html就是网页的源代码
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    #利用正则表达式把源代码中的图片地址过滤出来
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = imgre.findall(html) #表示在整个网页中过滤出所有图片的地址，放在imglist中
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,'%s.jpg' %x) #打开imglist中保存的图片网址，并下载图片保存在本地
        x = x + 1

html = getHtml("http://tieba.baidu.com/p/2460150866")#获取该网址网页详细信息，得到的html就是网页的源代码
getImg(html)#从网页源代码中分析并下载保存图片

最低0.47元/天解锁文章

以后以后

关注

5
点赞
踩
25

收藏

觉得还不错? 一键收藏
3
评论
Python爬虫学习笔记一：简单网页图片抓取

利用python抓取网络图片的步骤是：1、根据给定的网址获取网页源代码2、利用正则表达式把源代码中的图片地址过滤出来3、根据过滤出来的图片地址下载网络图片以下是比较简单的一个抓取某一个百度贴吧网页的图片的实现：# -*- coding: utf-8 -*-# feimengjuanimport reimport urllibimport urllib2#抓取
复制链接

扫一扫