分析请求地址
先来分析一下请求地址,我搜索的是“古力娜扎”
https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=%E5%8F%A4%E5%8A%9B%E5%A8%9C%E6%89%8E&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=&z=9&ic=&hd=&latest=©right=&word=%E5%8F%A4%E5%8A%9B%E5%A8%9C%E6%89%8E&s=&se=&tab=&width=0&height=0&face=&istype=&qc=&nc=&fr=&expermode=&force=&pn=0&rn=30&gsm=&1571040360801=
queryWord:表示要查询的关键字
word:也表示要查询的关键字
hd:表示高清
pn:表示第几页,首页为0
rn:表示每页显示的图片数量
随便自定义
二话不说,开爬
const https = require('https');
let options = {
hostname: 'image.baidu.com',
path: '/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=%E5%8F%A4%E5%8A%9B%E5%A8%9C%E6%89%8E&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=&z=9&ic=&hd=&latest=©right=&word=%E5%8F%A4%E5%8A%9B%E5%A8%9C%E6%89%8E&s=&se=&tab=&width=0&height=0&face=&istype=&qc=&nc=&fr=&expermode=&force=&pn=0&rn=30&gsm=&1571040360801=',
headers: { //伪装身份
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36",
"Referer": "https://image.baidu.com/"
}
}
let req = https.request(options, res => {
let chucks = [];
res.on('data', chuck => {
chucks.push(chuck);
})
res.on('end', () => {
let result = Buffer.concat(chucks).toString();
console.log(JSON.parse(result)); //看看拿到的数据,分析一通
})
})
req.on('error', err => {
console.log(err);
})
req.end();
拿到的每一条数据大概长这样
thumbURL、middleURL、hoverURL都是一些百度站内显示的图片地址,但真实的原图地址信息保存在