现在的网站大多做了反爬处理,找一个能爬的网站还真不容易。
下面开始一步步实现:
1.简单爬录目图片
1 importurllib.request2 importre3
4 defgethtml(url):5 page=urllib.request.urlopen(url)6 html=page.read().decode('utf-8')7
8 returnhtml9
10 defgetimg(html):11
12 a=re.compile(r'src="(.+?.jpg)"')13 tp=a.findall(html)14 x=015
16 for img intp:17 urllib.request.urlretrieve(img,'d:/tupian/%s.jpg' %x)18 x+=1
19
20
21 url="http://www.meituba.com/yijing/28426.html"
22
23 html=gethtml(url)24 getimg(html)
2.爬图集
这里仅仅是爬取了录目上的图片,还没有涉及到for循环遍历,针对我们的目标,我们要尽可能仔细观察它的规律。
这里我们随便点进去一个图片集,如图: