用python写简单的爬虫还是很快的。以前看到别人吐槽python程序就是import,倒也无可厚非。
程序需要用到自带的urllib库和re库。urllib抓取网页。re实现正则的匹配。
随便搜的一个百度的贴吧,通过浏览器审查元素后发现每个jpg格式的图片对应的匹配规则是r'src="(.+\..jpg)" pic'。
上代码。
import urllib
import re
def getPage(url):
page = urllib.urlopen(url).read() # fetch the html content
return page
def getImg(page):
marker = r'src="(.+?\.jpg)" pic' # re rule
imgre = re.compile(marker)
imglist = imgre.findall(page) #re match
num = 0
for imgurl in imglist:
urllib.urlretrieve(imgurl,'D:\\temp\\%s.jpg' % num)
num = num + 1
url = "http://tieba.baidu.com/p/3606227965"
getImg(getPage(url))
这个博客Python爬虫实战四实现的爬虫功能更强,有心情也顺便看看了。