nodejs 爬虫中文字体乱码 superagent iconvLite

nodejs 对于编码格式为 gb2313的网页无法正确解析,有两个解决办法,欢迎补充。

1 使用 superagent-charset 插件
其实 superagent-charset插件也用到了iconv-lite

const superagent = require('superagent');
const charset = require('superagent-charset');

charset(superagent);

superagent.get(url).charset("gb2312").end(function (err, res) {
  if (res) {
    fs.writeFile('./a.txt', JSON.stringify(res), function (err) {
      if (err) throw err;
      console.log('写入成功');
    });
  }
})

2, 使用 axios 和 iconv-lite
使用axios请求,返回 stream 数据流,用node的Buffer接收并用iconv-lite解析gbk格式

const iconvLite = require('iconv-lite');
const axios = require('axios');

axios.get(url, { responseType: 'stream' }).then(function (params) {
  let chunks = [];

  params.data.on("data", function (chunk) {
    chunks.push(chunk)
  })

  params.data.on("end", function () {
    let buffer = Buffer.concat(chunks);
    let str = iconvLite.decode(buffer, 'gbk')
    fs.writeFile('./a.txt', str, function (err) {
      if (err) throw err;
      console.log('写入成功');
    });
  })
})
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值