jsoup html 编码,jsoup的奇怪编码行为

我使用jsoup从不同页面的html源代码中提取了一些信息。它们大多数是UTF-8编码的。其中之一是使用ISO-8859-1编码的,这会导致一个奇怪的错误(在我看来)。

包含错误的页面是:http : //www.gudi.ch/armbanduhr-

metall-

wasserdicht-1280x960-megapixels-p-560.html

我用以下代码阅读了所需的String:

Document doc = Jsoup.connect("http://www.gudi.ch/armbanduhr-metall-wasserdicht-1280x960-megapixels-p-560.html").userAgent("Mozilla").get();

String title = doc.getElementsByClass("products_name").first().text();

问题是字符串“ HD Armbanduhr aus Metall 4GB Wasserdicht 1280X960 – 5

Megapixels”中的连字符。像öäü这样的正常变音符号可以正确读取。仅此单个字符,不会输出为“-” 造成了问题。

我试图用out.outputSettings()。charset(“ ISO-8859-1”)覆盖(正确设置的)页面编码,但是那也没有帮助。

接下来,我尝试将Charset类的字符串的编码手动更改为utf8和iso-8859-1。也没有运气。

有没有人提示我用jsoup解析html文档后可以尝试获得正确的字符?

谢谢

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值