nutch网页快照乱码解决方法

修改nutch\cached.jsp,

将content = new String(bean.getContent(details))

修改为content = new String(bean.getContent(details),"utf-8")

在画红框的地方加上UTF-8即可

以下内容参考:http://blog.csdn.net/xiaomage_cn/archive/2010/07/13/5731112.aspx进行总结

如果改为UTF-8后如果为gb2312、gbk等页面将会出现乱码

然后还有一些文章是对Metadata修改parseDate的contentmeta来实现获取正确的编码方式,这个思路是非常正确的,但是还是有一点问题,仍然会存在一些gb2312的页面出现乱码,下面对网页快照乱码进行最终的一个简单的解决办法:

修改cache.jsp如下:

上面画红框的是修改后的内容

蓝框是原始内容

1.ParseData ParseData = bean.getParseData(details);  
2.  
3.  String content = null;  
4.  String contentType = ParseData.getMeta(Metadata.CONTENT_TYPE);  
5.  if (contentType.startsWith("text/html")) {  
6.    // FIXME : it's better to emit the original 'byte' sequence   
7.    // with 'charset' set to the value of 'CharEncoding',  
8.    // but I don't know how to emit 'byte sequence' in JSP.  
9.    // out.getOutputStream().write(bean.getContent(details)) may work,   
10.    // but I'm not sure.  
11.    String encoding = ParseData.getMeta("CharEncodingForConversion");   
12.    if (encoding != null) {  
13.      try {  
14.        content = new String(bean.getContent(details), encoding);  
15.      }  
16.      catch (UnsupportedEncodingException e) {  
17.        // fallback to windows-1252  
18.        content = new String(bean.getContent(details), "windows-1252");  
19.      }  
20.    }  
21.    else   
22.      content = new String(bean.getContent(details),"GBK");  
23.  }  


 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值