1. 爬取图片
1.1 前言
这是一个李清照吧http://tieba.baidu.com/p/3825973883
里面有楼主上传的书法作品,每一楼的格式大致是这样,文本加上书法图片:
我当年年少,还不知道爬虫这个东西,又想把书法图片保存下来,于是一张张地把图片另存为,现在用爬虫来爬取每一楼的书法图片,解放一下人力:
1.2 爬取图片的流程可以总结如下:
1)爬取网页的html代码;
2)提取其中的图片url;
3)下载图片到本地。
1.3 代码
#coding:utf-8
#---------------------------------
#Created by linxiaobai 2016/09/19
#爬取百度贴吧图片
#---------------------------------
import urllib2
import urllib
import re
#打开贴吧的html
url="http://tieba.baidu.com/p/3825973883"
response=urllib2.urlopen(url)
html=response.read()
#提取其中所有的图片url(使用正则)
reg=r'src="(http://imgsrc.*?\.jpg)"'
imgre=re.compile(reg)
imlist=re.findall(reg,html)
#下载图片到本地
cnt=1
for imurl in imlist:
print cnt
print imurl
urllib.urlretrieve(imurl,"%s.jpg"%cnt);
cnt+=