使用Cheerio库编写的网页爬虫程序的详细代码解释:
// 导入需要的库
const cheerio = require('cheerio');
const http = require('http');
const https = require('https');
// 设置代理
const proxyHost = 'www.duoip.cn';
const proxyPort = 8000;
// 创建一个函数,用于爬取网页
async function crawler(url) {
// 使用https.get方法,设置代理
const options = {
hostname: url,
port: 443,
path: '/',
method: 'GET',
headers: {
'User-Agent': 'Mozilla/5.0'
}
};
options.agent = new https.Agent({
proxy: {
host: proxyHost,
port: proxyPort
}
});
const response = await new Promise((resolve, reject) => {
https.get(options, (res) => {
res.on('data', (chunk) => {
data += chunk;
});
res.on('end', () => {
resolve(data);
});
}).on('error', (e) => {
reject(e);
});
});
// 使用cheerio解析网页
const $ = cheerio.load(response);
// 获取所有的img标签
const images = $('img');
// 遍历所有的img标签,获取src属性
for (let i = 0; i < images.length; i++) {
const src = images[i].attribs.src;
// 打印出每一张图片的src属性
console.log(src);
}
}
// 调用函数,传入需要爬取的网页地址
crawler('https://www.zhihu.com/');
注释:
1. 首先,我们需要导入需要的库,分别是cheerio、http和https。
2. 然后,我们需要设置代理,这里我们使用的是www.duoip.cn的8000端口。
3. 接下来,我们创建一个函数,名为crawler,用于爬取网页。这个函数接受一个参数url,表示需要爬取的网页地址。
4. 在函数内部,我们使用https.get方法来发送一个GET请求,获取网页内容。在这个过程中,我们设置了代理,使用了设置好的代理服务器和端口。
5. 然后,我们使用cheerio解析获取到的网页内容,获取所有的img标签,然后遍历这些img标签,获取它们的src属性,并打印出来。这样,我们就可以获取到网页上的所有图片的地址了。
6. 最后,我们调用这个函数,传入需要爬取的网页地址,开始爬取网页。