使用Cheerio库编写的网页爬虫程序

华科云商小吴

于 2024-02-06 10:24:20 发布

阅读量1k

点赞数 12

文章标签：爬虫

本文链接：https://blog.csdn.net/w15189597283/article/details/136052683

版权

本文详细介绍了如何使用Cheerio库结合Node.js编写一个网页爬虫，通过设置代理抓取指定网站的图片URL，包括设置代理服务器、发送GET请求、解析HTML以及提取图片src属性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用Cheerio库编写的网页爬虫程序的详细代码解释：

// 导入需要的库
const cheerio = require('cheerio');
const http = require('http');
const https = require('https');

// 设置代理
const proxyHost = 'www.duoip.cn';
const proxyPort = 8000;

// 创建一个函数，用于爬取网页
async function crawler(url) {
    // 使用https.get方法，设置代理
    const options = {
        hostname: url,
        port: 443,
        path: '/',
        method: 'GET',
        headers: {
            'User-Agent': 'Mozilla/5.0'
        }
    };
    options.agent = new https.Agent({
        proxy: {
            host: proxyHost,
            port: proxyPort
        }
    });
    const response = await new Promise((resolve, reject) => {
        https.get(options, (res) => {
            res.on('data', (chunk) => {
                data += chunk;
            });
            res.on('end', () => {
                resolve(data);
            });
        }).on('error', (e) => {
            reject(e);
        });
    });
    // 使用cheerio解析网页
    const $ = cheerio.load(response);
    // 获取所有的img标签
    const images = $('img');
    // 遍历所有的img标签，获取src属性
    for (let i = 0; i < images.length; i++) {
        const src = images[i].attribs.src;
        // 打印出每一张图片的src属性
        console.log(src);
    }
}

// 调用函数，传入需要爬取的网页地址
crawler('https://www.zhihu.com/');

注释：
1. 首先，我们需要导入需要的库，分别是cheerio、http和https。
2. 然后，我们需要设置代理，这里我们使用的是www.duoip.cn的8000端口。
3. 接下来，我们创建一个函数，名为crawler，用于爬取网页。这个函数接受一个参数url，表示需要爬取的网页地址。
4. 在函数内部，我们使用https.get方法来发送一个GET请求，获取网页内容。在这个过程中，我们设置了代理，使用了设置好的代理服务器和端口。
5. 然后，我们使用cheerio解析获取到的网页内容，获取所有的img标签，然后遍历这些img标签，获取它们的src属性，并打印出来。这样，我们就可以获取到网页上的所有图片的地址了。
6. 最后，我们调用这个函数，传入需要爬取的网页地址，开始爬取网页。