nutch+mysql gb2312网页源代码中文乱码
问题描述:
将nutch爬的网页源代码存在mysql中,网页编码为gb2312的网页中文乱码,其他编码暂未发现问题。因为nutch对爬下的网页源代码content不作任何处理,仅仅保存,而我的mysql编码设置的为utf-8,所以会显示乱码。
现在需要处理网页源代码,取出指定数据,那么java程序如何将gb2312中文乱码的网页源代码转化为非乱码。
解决:
其实采用ResultSe
原创
2014-12-16 14:35:18 ·
1329 阅读 ·
0 评论