python爬虫案例1
爬取 http://www.shangxueba.com/jingyan/2438398.html 上的图片
结果在文件下中只有一个 0.jpg
[’//www.shangxueba.com/sitemap/images/20171018/logo.png’, ‘//www.shangxueba.com/sitemap/images/20171018/search_shadow.png’]
//www.shangxueba.com/sitemap/images/20171018/logo.png
import urllib.request
import re
def getHtml(url):
page = urllib.request.urlopen(url) ##打开页面
html = page.read() ##获取目标页面的源码
return html
def getImg(html):
reg = ‘src="(.+?.png)"’
##正则表达式筛选目标图片格式,有些是’data-original="(.+?.jpg)"’
img = re.compile(reg)
html