命题
交互式输入网址,爬取网页中全部png图片。
若想爬取其他图片,只改动正则表达式即可
思路
- 读取网页中源码
- 根据网页源码制定正则表达式,进行匹配
- 存取图片至本地
- 交互模式输入网址,若不输入则按默认网址爬取(http://findicons.com/pack/2787/beautiful_flat_icons)
知识点
- 根据源码编写正则表达式:reg=r’src="(.+?.png)" alt’
- 为提升速度,进行编译匹配
imgre=re.compile(reg)
imglist=imgre.findall(html)
源码
import urllib.request
import re
import os
import urllib
#打开网页,读取源码
def getHtml(url):
page=