node js 抓取指定网页内容gb2312乱码问题解决

                开始思路是用crawler。具体地址在Github上。https://github.com/sylvinus/node-crawler

                它的好处是可以用jquery选择器,方便快捷的选择出想要的内容。而且,说明文档宣称能把几乎所有的编码转化为UTf-8.我信了它整整一天,gb2312的网页都转化不了。

后来,贪图方便的jquery选择器,所以,一直在研究转码,下载了icon-lite。同样不可以。。直到。。。。。。。。发现了这篇文章

               http://cnodejs.org/topic/5034b141f767cc9a51baf9b0

              原来中文和英文大小不同,总之就是会截取出现一半的中文。所以转码形成乱码。用文章介绍的方式,果断的出现了中文。。此地真的想哭啊。。

             ok。文章是中文了,可是内容是整个页面的源代码。太庞大了。首先想到了xpath。于是继续不断的下载,尝试,下载,尝试。错误都是那一个。

             用的是xpath.js .地址是https://github.com/yaronn/xpath.js

              这个工具可以容易的解析xml内容。可是对于一个大型网页内容来说,会出现很多很多,前后Tag标签不对称的情况,所以,还是失败。。

             最后, 终于发现,还有一种方法,htmlparse。抱着试一试的态度,下载,安装。奇迹发生了,我终于可以抓取自己想要的中文的内容了。。此处哭不停啊

            ok。htmlparse的地址是https://github.com/harryf/node-soupselect

           


           初学node。代码混乱,见谅

         var http = require('http'), 
         

         url = require('url').parse('http://psv.tgbus.com/');

 var iconv = require('iconv-lite');  //用于转码 
 

        var BufferHelper = require('bufferhelper');//用于拼接BUffer。防止中文单词断裂
        

          var select = require('soupselect').select,//选择器

         htmlparser = require("htmlparser");


 http.get(url,function(res){


 var bufferHelper = new BufferHelper();


 res.on('data', function (chunk) {
   bufferHelper.concat(chunk);


 });
 res.on('end',function(){ 


   var tex=iconv.decode(bufferHelper.toBuffer(),'GBK');


     var handler = new htmlparser.DefaultHandler(function(err, dom) {
           

              if (err) {
                    //   sys.debug("Error: " + err);
               } else {


                   // soupselect happening here...
                   var titles = select(dom, 'title');


               // sys.puts("Top stories from reddit");
                console.log(JSON.stringify(titles));
                
                 }
           });


           var parser = new htmlparser.Parser(handler);
            parser.parseComplete(tex);


 });
})

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值