- 一个小爬虫从贴吧中批量获取图片
import re
import urllib
def getHtml(url):
page=urllib.urlopen(url)
html=page.read()
return html
print getHtml("http://tieba.baidu.com/p/4926599520?red_tag=v1481313036")
这个会自动获取网页的数据,将网页的数据下载下来,接下来对数据进行分析。
- 利用正则寻找图片的地址
import re
import urllib
def getHtml(url):
page=urllib.urlopen(url)
html=page.read()
return html
def getImg(html):
reg =r'src="(.*?\.jpg)" width'
imgre = re.compile(reg)
imglist = re.findall(imgre,html)
x = 0
for imgurl in imglist:
urllib.urlretrieve(imgurl,'%s.jpg' % x)
x+=1
html = getHtml("http://tieba.baidu.com/p/1692709597?fr=ala0&alath=2&pstbala=1")
print getImg(html)
不断执行会不间断下载图片。
方法:
1. 下载图片的源代码。
2. 利用正则表达式匹配。