nodejs 爬虫的乱码问题归类及解决方案

乱码问题分类及解决方案

1 使用 cheerio 解析下载下来的html字符串,碰到中文,如果不解析,可以直接添加参数 { decodeEntities: false }:
例如:

var $ = cheerio.load("<h1><p>你好</p><em>Hello,World!</em></h1>");
var cnt = $('h1').html();//<p>&#x4F60;&#x597D;</p><em>Hello,World!</em>

修改成:

var $ = cheerio.load("<h1><p>你好</p><em>Hello,World!</em></h1>", { decodeEntities: false });
var cnt = $('h1').html();//你好Hello,World!

因为cheerio 本身默认是转实体的,decodeEntities: false 表示不转实体。

2 在请求页面内容的是添加参数 {'Accept-Encoding': ''}
事实上,在网页去请求的时候,为了减少网页请求所消耗的带宽,提高数据传输的速度,通常会把数据进行压缩,就需要用到 ‘Accept-Encoding’,它的值 ‘gzip, deflate, br’,代表的意思是数据压缩采用的编码方式。
通常看我们还需要关注一个

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值