jsoup html 编码,jsoup的奇怪编码行为

最新推荐文章于 2023-07-09 21:26:23 发布

KokuGKD

最新推荐文章于 2023-07-09 21:26:23 发布

阅读量295

点赞数

文章标签： jsoup html 编码

我使用jsoup从不同页面的html源代码中提取了一些信息。它们大多数是UTF-8编码的。其中之一是使用ISO-8859-1编码的，这会导致一个奇怪的错误(在我看来)。

包含错误的页面是：http : //www.gudi.ch/armbanduhr-

metall-

wasserdicht-1280x960-megapixels-p-560.html

我用以下代码阅读了所需的String：

Document doc = Jsoup.connect("http://www.gudi.ch/armbanduhr-metall-wasserdicht-1280x960-megapixels-p-560.html").userAgent("Mozilla").get();

String title = doc.getElementsByClass("products_name").first().text();

问题是字符串“ HD Armbanduhr aus Metall 4GB Wasserdicht 1280X960 – 5

Megapixels”中的连字符。像öäü这样的正常变音符号可以正确读取。仅此单个字符，不会输出为“＆＃45;” 造成了问题。

我试图用out.outputSettings()。charset(“ ISO-8859-1”)覆盖(正确设置的)页面编码，但是那也没有帮助。

接下来，我尝试将Charset类的字符串的编码手动更改为utf8和iso-8859-1。也没有运气。

有没有人提示我用jsoup解析html文档后可以尝试获得正确的字符？

谢谢

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

KokuGKD

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

java获取文件编码,jsoup获取html纯文本操作

10-14

本文将深入探讨如何使用Java获取文件编码以及如何利用Jsoup库提取HTML文档中的纯文本内容。首先，让我们了解如何在Java中获取文件的编码。在给定的代码片段中，使用了`com.ibm.icu.text.CharsetDetector`类来检测...

jsoup html 编码,Jsoup.connect(字符串)编码问题

weixin_36281932的博客

06-25

577

我有几个特殊的字符url我必须连接到Jsoup.connect(字符串),但它无法加载页面(得到错误500).我不是那么多的URL,但我认为它与JSoup.connect使用的编码有关无论如何,我将如何继续以允许链接具有如下特殊字符：ÆØÅè等,我得到的例外是：java.io.IOException: 500 error loading URL https://maps.googleapis.co...

参与评论您还未登录，请先登录后发表或查看评论

使用jsoup抓取和解析网页数据

最新发布

小易

07-09

3455

jsoup是一个强大的Java库，可以用于解析HTML文档。它提供了许多常用的API，用于选择、遍历和修改HTML文档中的元素和属性。选择器（Selector）API：用于根据CSS选择器语法选择HTML元素。属性（Attribute）API：用于获取、设置和移除HTML元素的属性。遍历（Traversal）API：用于遍历HTML文档中的元素。操作（Manipulation）API：用于修改HTML文档中的元素和属性。接下来，我们将逐一介绍这些API，并给出相应的代码示例。

java爬虫使用jsoup.jar包-自定义webUrl编码方式

zuijiuhengdao的博客

07-28

2058

一、本文主要讲述为java爬虫使用jsoup.jar包，可自定义webUrl的编码。二、前述：博主使用jsoup.jar包爬取新浪，关键字为中文时爬取内容为乱码，若关键字为英文时爬取内容正常，经在eclipse中调试发现jsoup.jar包会将包含汉字的url路径解析为utf-8编码格式路径，然而新浪新闻网会将包含汉字的url解析为编码格式为GB2312的url. 例如搜索关键字为：苹

Jsoup爬取网页乱码编码格式gb2312转utf8

poyuan97的博客

09-20

6915

最近做的一个项目需要爬取股票公告并存储于mongodb中用来显示，当我在用jsoup爬取新浪财经股票公告的时候，发现了乱码问题。网页链接如下http://vip.stock.finance.sina.com.cn/corp/view/vCB_AllBulletinDetail.php?stockid=600958&id=3735125，打开控制台可以看到新浪财经采用的是gb2312的编码方式，mo

JSOUP 乱码处理

07-06

201

JSOUP 支持在请求的时候，传入URL 对象，然后设置编码。如下方式才是正解，设置编码为GBK 。 doc = Jsoup.parse(new URL(url).openStream(), "GBK", url); 如果对方是UTF-8 ，那就设置为UTF-8 RL url = new URL("https://sms.reyo.cn"); HttpURL...

crawler4j抓取页面使用jsoup解析html时的解决方法

10-26

但是，当`crawler4j`与`jsoup`结合使用时，如果没有正确处理编码问题，乱码问题就会显现出来。问题的核心在于，`crawler4j`在抓取网页内容时，可能无法自动识别或适配网页的实际编码，导致在解析时出现错误。默认...

JSOUP:用于HTML的JSOUP技术

04-07

- HTML实体编码：由于HTML字符实体的存在，直接提取的文本可能需要解码才能正确显示。 - 错误处理：考虑到网络不稳定和网页结构变化，需要编写健壮的错误处理代码来应对可能出现的问题。 "JSOUP-master"这个文件名...

jsoup-1.6.3.rar HTML解析器

07-25

此外，jsoup还能自动处理编码问题，确保在不同编码环境下正确解析HTML。 ### 安全性考虑到网络安全，jsoup在解析过程中会进行安全检查，防止XSS（跨站脚本攻击）等安全漏洞。这意味着开发者在使用jsoup时，可以...

JAVA jSOUP解析html

08-04

`Test01.java`负责使用jSoup解析HTML并提取所需信息，而`UrlUtils.java`则辅助处理URL相关的操作，如生成合法请求的URL，或对获取的链接进行编码和解码。总结，jSoup是Java中解析和操作HTML的强大工具，其易于使用...

使用Jsoup解析HTML页面

Kiven's blog

09-01

1486

在写Android程序时，有时需要解析HTML页面，特别是那类通过爬网站抓取数据的应用，比如：天气预报等应用。如果是桌面应用可以使用htmlparser这个强大的工具，但是在Android平台上使用会出现错误；另一种办法是使用正则表达式来抽取数据；再有一个办法是纯字符串查找定位来实现。文本将要介绍的是使用Jsoup这个开源的解析器来实现。 Jsoup既可以通过一个url网址，也可以通过存储h

HTML解析利器--Jsoup学习（基于kotlin编码）

Z_DingHao的博客

07-26

2297

Jsoup 基于java平台的HTML解析工具，针对HTML字符串，URL地址。功能 1. URL基于网络解析HTML 2. HTML字符串解析 3. 类DOM或CSS选择器解析 4. 解析Body片段字符串、文件、网络解析、DOM树解析、选择器解析：package utilimport org.jsoup.Jsoup import org.jsoup.nodes.Document

HTML编码与解码

1ame的博客

07-20

4444

由于HTML是一种由符号标记的语言，所以该语言占用了一些表示的符号。而页面随时需要表示这些符号，所以HTML将一些被占用的符号或一些特殊功能的符号使用了一些特殊的方法标记，以便展示。这些方法就是HTML编码。 HTML 中的预留字符必须被替换为字符实体。如：在 HTML 中不能使用小于号（），这是因为浏览器会误认为它们是标签。如果希望正确地显示预留字符，我们必须在 HTML

Android之Jsoup解析Html抓包其他网站数据

热门推荐

云淡风轻的博客

03-15

1万+

有时候开发Android客户端时，没有大量的数据，而且懒得自己收集数据，那么就可以尝试用Jsoup解析其他网站的数据。我以解析我们学校网站的一条通知为例即下图： ①首先应制定数据在什么标签中，可以通过按F12 ②然后就准备看数据所在标签了可以发现，通知的所有数据都在span标签中，而页面中肯定有很多的span标签，所以知道“通知”的数据在span标签中还不够，还要看我们

【jsoup】爬虫，解析html（包含如何解析本地html）

w13346019869的博客

08-16

1059

大家可能会看到new URL（http/https）这样爬取网页的案例，但是爬取本地的该怎么办呢，很简单，只需要将本地的文件读取为String，然后再进行解析即可。大家可以根据笔者的案例进行扩展，来完成自己的业务需求。例如：爬取本地html文件，构建为java 对象。需求：将本地的html文档解析为对象。注意点：html的编码格式。...

基于jsoup获取全国省市区区域编码

Daeker的博客

01-04

1987

基于jsoup获取全国省市区乡镇区域编码本文获取全国省市区区域编码路径：http://www.mca.gov.cn//article/sj/xzqh/2020/202006/202008310601.shtml 文章目录基于jsoup获取全国省市区乡镇区域编码前言一、jsoup是什么？二、使用步骤1.引入库2.ChinaRegionsInfo.JAVA 实体类3.爬取省市区区域代码实例总结前言省市区区域编码一、jsoup是什么？ jsoup是解析HTML得二、使用步骤 1.引入库

Jsoup 提交参数乱码，解决思路，解决过程及解决方案

啊~~~ 小风车...

06-19

1397

最近在开发ICP备案查询网，为了保持运行的稳定性，虽然我已经拥有不用验证码的ICP备案查询：https://www.sojson.com/beian/ 但是还是不能放弃域名（www.xbeian.com），故开发一套产品出来。下面来一个不成型的界面当封面图吧。废话不说了，开始这篇的分享内容。需求介绍 1.从工信部页面（“http://www.beian.miit.gov.cn/ic...

jsoup修改html文件,Jsoup解析HTML实例及文档方法详解

weixin_34779181的博客

06-03

845

解析和遍历一个HTML文档如何解析一个HTML文档：复制代码代码如下:String html = "First parse"+ "Parsed HTML into a doc.";Document doc = Jsoup.parse(html);其解析器能够尽最大可能从你提供的HTML文档来创见一个干净的解析结果，无论HTML的格式是否完整。比如它可以处理：1、没有关闭的标签 (比如： Lore...

jsoup入门：HTML解析与网页抓取利器

Jsoup以其强大而灵活的功能，帮助开发者高效地处理HTML文档，特别是对于不完整或结构混乱的HTML内容。本教程的核心内容围绕以下几个关键知识点展开： 1. **HTML解析基础**：在学习过程中，首先介绍了HTML的基本结构...