本篇为基础爬虫的模板,使用urllib库。
代码功能:爬取百度贴吧的图片。
代码如下:
import re
import urllib
def getHtml(url):
page=urllib.urlopen(url)
html=page.read()
return html
def getImg(html):
reg=r'src="(.+?\.jpg)" size='
imgre=re.compile(reg)
imglist=re.findall(imgre,html)
x=0
for imgurl in imglist:
urllib.urlretrieve(imgurl,'%s.jpg'%x) #urllib.urlretrieve()方法,直接将远程数据下载到本地。
x+=1
name='http://tieba.baidu.com/p/4859088308'
html=getHtml(name)
getImg(html)
print 'DONE!'
注释:
1、re是正则库,详细可看
http://www.cnblogs.com/fnng/archive/2013/05/20/3089816.html