NODEJS 解析gzip网页成功范例

最新推荐文章于 2024-07-30 16:55:48 发布

murphy_flush

最新推荐文章于 2024-07-30 16:55:48 发布

阅读量5.6k

点赞数 2

分类专栏： NODEJS

NODEJS 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

抓取这个网页http://www.runoob.com/nodejs/...出现乱码，网页编码为utf-8，用过iconv-lite还是不行，这是为什么？

var http=require("http");
var go=require("iconv-lite")
http.get("http://www.runoob.com/nodejs/nodejs-tutorial.html",function(res){
    var html="";
    res.on("data",function(data){
       /* html +=go.decode(data,"gb2312");*/
        html+=data;
    })
    res.on("end",function(){
        console.log(html);
    }).on("error",function(){
        console.log("获取失败")
    })

})

_________________________________________________________________________________________

https://segmentfault.com/q/1010000007540588?_ea=13831

这个不是编码的问题，编码确实是utf-8，但是这个网页使用gzip进行了压缩，所以请求之后需要先进行ungzip。

推荐使用request，可以比较方便的解决这个问题，只需要添加一个参数：

var request = require('request');
request({
    url: 'http://www.runoob.com/nodejs/nodejs-tutorial.html',
    gzip: true
}, function(err, response, body) {
    console.log(body);
});

补充一下不用第三方包的写法：

var http = require("http");
var zlib = require('zlib');

http.get("http://www.runoob.com/nodejs/nodejs-tutorial.html", function(res) {
    var html = [];
    res.on("data", function(data) {
        html.push(data);
    })
    res.on("end", function() {
        var buffer = Buffer.concat(html);
        zlib.gunzip(buffer, function(err, decoded) {
            console.log(decoded.toString());
        })
    }).on("error", function() {
        console.log("获取失败")
    })
})