#!/usr/bin/python
#coding: utf-8
# 爬取imooc网站python页面的所有的图片
import urllib
import re
html = urllib.urlopen("http://www.imooc.com/course/list?c=python").read()
# 查看爬取的网页的源码
# print html
def getImg(imglist):
for img in imglist:
# 对图片进行保存
# img.strip().split("/")[-1] 获得网页中的图片的名字
urllib.urlretrieve(img, img.strip().split("/")[-1])
# 在re模块中的findall方法中使用分组会只返回分组的数据
# 注意html代码中坑爹的地方,在height前面空格数不是一个就是俩
reg = re.compile(r'src="(.*\.jpg)" {1,2}height')
imglist = reg.findall(html)
# 查看总共爬取了多少图片
# print(len(imglist))
getImg(imglist)
使用re模块爬取网页图片并下载
最新推荐文章于 2021-07-04 20:32:08 发布