Node爬虫：批量下载网页

最新推荐文章于 2024-08-18 23:05:27 发布

choubiao0107

最新推荐文章于 2024-08-18 23:05:27 发布

阅读量524

点赞数 1

文章标签：爬虫操作系统 javascript ViewUI

原文链接：https://my.oschina.net/junyiz/blog/1615793

版权

编写网页爬虫时，爬取 html 页面是基本功能。在 Node.js 中，只需借助内置的 http 模块，即可实现一个网页下载器，代码如下：

const http = require('http')
const https = require('https')
const iconv = require('iconv-lite')
const userAgent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36'

function isRedirect(code) {
  return code === 300 || code === 301 || code === 302 || code === 303 || code === 305 || code === 307 || code === 308
}

/**
 * 网页下载器
 * @param {string} url - 网页的网络地址
 * @param {number} timeout - 超时时间，默认 1 分钟
 * @param {number} retries - 重试次数，默认重试 2 次；为 0 时，不支持重试
 * @param {number} redirect - 支持重定向次数，默认重试 5 次；为 0 时，不支持重定向
 * @return promise
 */
module.exports = function htmlDoanloader(url, timeout = 60 * 1000, retries = 2, redirect = 5) {
  return new Promise(function (resolve, reject) {
    function wrapper (url, timeout, retries, redirect) {
      let request = url.startsWith('https') ? https.request : http.request
      let req = request(url, res => {
        let buf = [], size = 0 
        if (isRedirect(res.statusCode) && 'location' in res.headers && redirect > 0) {
          wrapper(res.headers.location, timeout, retries, redirect - 1)
          return
        }
        res.on('data', (chunk) => {
          buf.push(chunk)
          size += chunk.length
        })
        res.on('end', () => {
          resolve(iconv.decode(Buffer.concat(buf, size), 'utf8'))
        })
      })
      req.setHeader('User-Agent', userAgent)
      req.setTimeout(timeout, () => {
        retries--
        req.abort()
      })
      req.on('error', (err) => {
        retries > 0 ? retries-- : reject(err)
      })
      req.on('close', () => {
        // 重试时，将超时时间递增 1 分钟
        if (retries > 0) wrapper(url, timeout + 60 * 1000, retries, redirect)
      })
      req.end()
    }
    wrapper(url, timeout, retries, redirect)
  })
}

随着 Node 直接支持 async await，异步编程的复杂度大为简化，并且更直观。因此，上述代码使用了 Promise，方便在 async function 中拿到下载的页面字符串，以便后续进行分析。

有了上述网页下载器(htmlDownloader.js)，只需循环遍历网页地址，即可实现批量网页下载，而下载网页是为了从中抽取需要的数据，这里不再展示如何批量下载网页，下一篇将展示如何用 cheerio 从网页抽取数据。

转载于:https://my.oschina.net/junyiz/blog/1615793