python:爬取百度中国艺人公众人物人脸图像制作数据集
分析
百度搜索中国艺人,打开检查页面找到api:发现图片和api的url
将url复制到postman分析
经过简单分析,发现GET请求分页的机制:rn指示一页的数量,pn指示起始标号。ps:经过简单测试,rn最大只能设置100。不过足够了。RESPONSE中人物名称是ename,图片地址是pic_4n_78
编程
废话不多说,直接代码
#!/usr/bin/env python
# coding=utf-8
import requests
import json
import os
Download_dir='chinese_celeb_imgs'
if os.path.exists(Download_dir)==False:
os.mkdir(Download_dir)
pn_i=0
while(True):
pn=str(pn_i)
pn_i+=100
url="https://sp0.baidu.com/8aQDcjqpAAV3otqbppnN2DJv/api.php?resource_id=28266&from_mid=500&a