Jsoup 采集回来的信息出现乱码

最新推荐文章于 2021-10-04 10:26:02 发布

a249130

最新推荐文章于 2021-10-04 10:26:02 发布

阅读量1.4k

点赞数

分类专栏： java 文章标签：乱码 Jsoup

本文链接：https://blog.csdn.net/a249130/article/details/54406934

版权

java 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

一般出现这个情况是由于url指向的页面，实际编码与html中描述的编码不符导致。如：开发时用的GBK编码编写，但html中却写UTF-8。典型的就是在中文Windows下用记事本，写一个UTF-8的html就会出现这个问题。
你可以不用jsoup.connect，这个会从html描述中识别。
你可以用Jsoup.parse(InputStream in, String charsetName, String baseUri) 的方式从一个流中读取，charsetName选择合适的编码。
如：
String url = "http://xxxxxxx";
Document document = Jsoup.parse(new URL(url).openStream(), "GBK", url);
//你可以试试GBK或UTF-8
p.s.
编码问题： new String(docStr.getBytes("ISO8859-1"), "UTF-8");  方式绝对不是正确解决之道

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

a249130

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Jsoup 采集回来的信息出现乱码

一般出现这个情况是由于url指向的页面，实际编码与html中描述的编码不符导致。如：开发时用的GBK编码编写，但html中却写UTF-8。典型的就是在中文Windows下用记事本，写一个UTF-8的html就会出现这个问题。你可以不用jsoup.connect，这个会从html描述中识别。你可以用Jsoup.parse(InputStream in, String charsetName, Str
复制链接

扫一扫