最近在编写图像识别模型的时候, 需要爬取一些样本图片,于是用NodeJS编写了一个简单的爬虫。但是在下载图片过程中, 经常会报如下错误:
报错部分代码:
//通过流的方式,把图片写到本地/image目录下,并用新闻的标题和图片的标题作为图片的名称
await request(gif).pipe(fs.createWriteStream('./appleCode/' + img_filename)).on;
一开始我以为是服务器对IP进行了频率验证,后来查看 request 发现官方已经弃用了。于是盲猜是 pipe 流同时运行的进程超出了限制。
条条大路,通罗马,于是改用 Axios 来下载文件
npm install axios
然后参考官方示例编写一个下载操作函数
/**
* @param {string} imgUrl 图片地址
* @param {string} filepath 文件保存的本地目录
* @param {string} flieName 保存的文件名
*/
async function downloadFile(imgUrl, filepath, flieName) {
if (!fs.existsSync(filepath)) {
fs.mkdirSync(filepath);
}
const mypath = path.resolve(filepath, flieName);
const writer = fs.createWriteStream(mypath); // 创建写入对象
const response = await Axios({
url: imgUrl,
method: "GET",
responseType: "stream",
}); // 请求图片地址获取二进制数据流
response.data.pipe(writer); // 写入图片数据到文件中
return new Promise((resolve, reject) => {
writer.on("finish", resolve);
writer.on("error", reject);
});
}
啪的一下,很快啊,问题就解决了