爬虫实例：爬取一个网页上的图片地址

最新推荐文章于 2024-08-05 11:10:25 发布

o_w_olf

最新推荐文章于 2024-08-05 11:10:25 发布

阅读量4.4k

点赞数 1

分类专栏： Python学习文章标签：爬虫爬取网页图片

本文链接：https://blog.csdn.net/m0_38066258/article/details/77388350

版权

Python学习专栏收录该内容

36 篇文章 0 订阅

订阅专栏

读取一个网页的源代码：

import urllib.request
def getHtml(url):
    html=urllib.request.urlopen(url).read()
    return html
print(getHtml("http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%A3%81%E7%BA%B8&ct=201326592&lm=-1&v=flip"))

利用正则表达式爬取一个网页上的图片地址：

import re
import urllib.request
def getHtml(url):
    html=urllib.request.urlopen(url).read()
    return html
def getImg(html):
    r=r'"thumbURL":"(http://img.+?\.jpg)"'  #定义正则
    imglist=re.findall(r,html)
    return imglist
html=str(getHtml("http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%A3%81%E7%BA%B8&ct=201326592&lm=-1&v=flip"))
print(getImg(html))