HtmlParser处理gbk编码网页抽取乱码的问题

最新推荐文章于 2021-06-02 18:42:54 发布

killtayoto

最新推荐文章于 2021-06-02 18:42:54 发布

阅读量4.8k

点赞数

CC 4.0 BY-SA版权

分类专栏： Linux 文章标签： string buffer 工具 byte html chrome

本文链接：https://blog.csdn.net/killtayoto/article/details/6102116

Linux 专栏收录该内容

7 篇文章

订阅专栏

本文探讨了使用HtmlParser处理GBK编码网页时遇到的乱码问题，并提供了一种解决方案，即自行下载网页并转换编码，再利用HtmlParser进行内容抽取。

HtmlParser作为我很喜欢的html的DOM抽取工具，常常在我的工作中起到很关键的作用。最近在使用过程中发现一个诡异的问题，那就是处理gbk编码的网页的问题。

首先HtmlParser中有个设置编码的方法：

MyParser.setEncoding("gbk");

这里一个小插曲仍然需要注意，这个方法要在setUrl这个方法之后调用。据我的推测，是因为HtmlParser自己会检测网页的编码，而且是在setUrl方法之后自己执行。所以有这样的情况，网页文件的编码是utf-8的，但是网页的charset是gbk的，那么HtmlParser就会按照gbk来做，你会发现乱码问题。

我这里遇到的更为奇怪的问题是，用setUrl来让HtmlParser自己下载网页，然后抽取出来的中文乱码问题。据我的推测，是因为HtmlParser的编码并不完全，因为抽取出来的大部分是正确地，唯独一些生僻字是乱码，也就是传说中的gb2312和gbk的问题了，前一个编码集合在标准中是很少的，这部分比如“囧”之类的就会是乱码。所以我猜测对于gbk等中文编码，他是按照gb2312来转换成utf-8的，所以部分字体是乱码。

我的解决办法是自己下载网页，自己转换编码，然后直接用HtmlParser的setResource来设置自己转化之后的网页。也就是替它完成其他编码到utf-8编码的转换工作。自己写一个文件转换的函数：

private String readFile(String file) { String result = ""; try { BufferedInputStream fin = new BufferedInputStream( new FileInputStream(file)); byte[] buffer = new byte[2048 * 1024]; int re = fin.read(buffer); result = new String(buffer, 0, re, "GBK"); fin.close(); } catch (FileNotFoundException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } return result; }

这里的示例比较粗暴，哈哈。然后

String page = readFile( sUrl ); MyParser.setResource( page ); MyParser.setEncoding("gbk");

就可以抽取出正确地中文信息了。

总体来说HtmParser是很出色的工具，简单易懂，和chrome的“开发人员工具”结合起来，抽取结构化html非常的容易。