Jsoup解析HTML中 出现乱码问题解决办法

最新推荐文章于 2021-07-05 03:06:54 发布

KAIKAI_ING

最新推荐文章于 2021-07-05 03:06:54 发布

阅读量3.7k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/KAIKAI_ING/article/details/70175843

版权

问题：HTML中源码显示&nbsp；但是利用Jsoup的text（）方法获取的文字就会出现问题，一般情况是&nbsp；变成非传统空格或者乱码，这样在解析的时候想切分字符串会无法成功。因为&nbsp；是ISO-8859-1的西欧编码，空格的编码为160，而我们普通使用的ASCII的空格编码是32.

这种问题的处理一般有两种方法：

1、

把Element转化为字符串，用String.replace替换掉，再通过Jsoup.parse()把处理过的字符串转成Document,再通过Document.text() 得到处理过的内容。如：

String temp=tp.toString().replace(" "," ");

Document d=Jsoup.parse(temp);

System.out.println(d.text());

2、

把Element内的文字通过Element.toString()输出，再用String.replace替换。个人比较推荐这种方法。

String temp = els.text().replace(Jsoup.parse(" ").text(), " ");

Ststem.out.println("temp");

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Jsoup解析HTML中 出现乱码问题解决办法

问题：HTML中源码显示&nbsp；但是利用Jsoup的text（）方法获取的文字就会出现问题，一般情况是&nbsp；变成非传统空格或者乱码，这样在解析的时候想切分字符串会无法成功。因为&nbsp；是ISO-8859-1的西欧编码，空格的编码为160，而我们普通使用的ASCII的空格编码是32.这种问题的处理一般有两种方法：1、把Element转化为字符串，用Strin
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。