nodejs怎么写爬虫程序？其实很简单。

阿波糍嘚

已于 2023-07-13 23:05:24 修改

阅读量780

点赞数

文章标签：爬虫 javascript node.js

于 2023-07-13 23:03:03 首次发布

本文链接：https://blog.csdn.net/m0_46496355/article/details/131713206

版权

有时看到某些网站有大量的图片，想将这个网页的所有图片都下载下来有没有什么简单的方法？
那就写个爬虫程序！并且使用Node.js来写。
Node.js是一个非常强大的JavaScript运行时环境，可以用于编写各种类型的应用程序，包括网络爬虫。
使用Node.js编写爬虫程序可以分为以下几个步骤。

1.首先，创建一个项目文件夹，打开命令行终端，使用以下命令初始化一个新的Node.js项目：

npm init -y

2.然后我们需要执行以下命令安装一些必要的依赖库：

npm install axios cheerio

3.接下来，在根目录中创建一个index.js文件，并在其中添加以下代码：

const axios = require('axios');
const cheerio = require('cheerio');
const fs = require('fs');
const path = require('path');
 // 定义要爬取的网页URL
const url = 'xxx.com'; // 替换为你要爬取的网页URL
 // 发起网络请求并获取网页内容
axios.get(url)
  .then(response => {
    const html = response.data;
    const $ = cheerio.load(html);
     // 使用选择器定位图片元素，并提取图片URL
    const images = [];
    $('img').each((index, element) => {
      const imageUrl = $(element).attr('src');
      images.push(imageUrl);
    });
     // 下载图片
    images.forEach(imageUrl => {
      const imageName = path.basename(imageUrl);
      // 指定要下载到的文件夹路径
      const imagePath = path.join('/XX/', 'images', imageName);
       axios.get(imageUrl, { responseType: 'stream' })
        .then(response => {
          response.data.pipe(fs.createWriteStream(imagePath));
        });
    });
  })
  .catch(error => {
    console.error('Error:', error);
  });

4.在命令行终端运行命令：

node index.js

爬虫程序开始执行，下载指定网页中的图片并且保存到指定的文件夹。
cheerio库可以将HTML内容加载为可操作的DOM对象，并使用选择器定位所有的图片元素，并提取图片的URL。
然后，我们使用axios库再次发起网络请求，下载并保存每个图片。
这就是一个简单的使用Node.js编写的爬虫程序，用于爬取网页中的图片。可以根据具体的需求进行修改和扩展。