前期准备:一个所爬人物的名单txt,只要人名,一行一个。
代码流程:读取上述名单,遍历每一个人名,爬取30张关于他的百度图片,保存在以他名字命名的文件夹中。
ps:默认情况下,网址的一页是60张图,如何翻页呢?注意到所爬网址的最后是pn=60,只要每次加60就会到新的一页,比如pn=120,pn=180等。
#!/usr/bin/env python
# encoding: utf-8
import urllib2
import re
import os
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
def img_spider(name_file):
user_agent = "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36"
headers = {'User-Agent':user_agent}
#读取名单txt,生成包括所有人的名单列表
with open(name_file) as f:
name_list = [name.rstrip().decode('utf-8') for name in f.readlines()]
f.close()
#遍历每一个人,爬取30张关于他的图,保存在以他名字命名的文件夹中
for name in name_list:
#生成文件夹(如果不存在的话)
if not os.