以下是源码,参考的是虫师写的简单爬虫的实现,虫师教程太老,导致范例跑不起来。 原因是里面的网址404了。必须要正则能够搜索到图片。
本文范例所用网址里面的图片命名是 http://tb.himg.baidu.com/sys/portrait/item/33a5786c3936343937303734355a33
#-*- coding:utf-8 -*- import re import urllib def getHtml(url): page = urllib.urlopen(url) html = page.read() return html def getImg(html): reg = r'src="(http://.*?)"' imgre = re.compile(reg)