[Java] 解决用Jsoup解析网页过程中由&nbsp造成的乱码问题

最新推荐文章于 2024-05-31 20:28:15 发布

multiangle

最新推荐文章于 2024-05-31 20:28:15 发布

阅读量5.9k

点赞数 2

分类专栏： java 文章标签： jsoup 乱码解决

本文链接：https://blog.csdn.net/u014595019/article/details/45218451

版权

23 篇文章 0 订阅

订阅专栏

昨天晚上在写爬虫的时候，发现Jsoup会在输出utf-8网页的时候把  输出成乱码“?”找了找，发现是编码的问题。那么解决思路就是把这个字符替换掉。但是如何替换，我又想了好多办法，甚至一度想过用正则表达式去解决。还来通过自己思考和查资料，得到了两种方法。

方法1：
把Element转化为字符串，用String.replace替换掉，再通过Jsoup.parse()把处理过的字符串转成Document,再通过Document.text() 得到处理过的内容。

String temp=tp.toString().replace("&nbsp;", "") ;
Document d=Jsoup.parse(temp) ;
System.out.println(d.text()) ;

tp是一个Element类的对象

方法2：
把Element内的文字通过Element.toString()输出，再用String.replace替换。我比较推荐这种方法。

String temp=tp.text().replace(Jsoup.parse("&nbsp;").text(), "") ;
System.out.println(temp) ;

由于我不知道那个字符转义以后不知道变成什么样子了，事实上我也不需要知道，直接用Jsoup.parse(" ").text()来获得其转义后的东西，将其替换成“”。有些以其人之道还治其人之身的感觉 <(￣︶￣)>

关注