使用Jsoup对HTML进行解析

最新推荐文章于 2023-08-13 21:52:59 发布

A2BGeek

最新推荐文章于 2023-08-13 21:52:59 发布

阅读量1.6k

点赞数

分类专栏： Web 文章标签： html string 服务器 python 文档 java

本文链接：https://blog.csdn.net/a2bgeek/article/details/7860954

版权

Web 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

貌似解析HTML的工具名字都是XXsoup，比如python的beautifulsoup，这里介绍一下java的Jsoup。我这里只说我使用的感受。

Jsoup可以解析服务器上的、本地的HTML文件，将里面的标签过滤掉，得到有用的内容，。

比如只需要<title>标签的内容，

解析本地的：需要把文件放到IO流中

Document doc = Jsoup.parse(inputStream, "UTF-8", "http://www.google.com.hk/");
String title = doc.title();

解析服务器上的：

Document doc = Jsoup.connect("http://www.XXX.com/").get(); 
String title = doc.title();

再比如需要整个<body>中的内容，

Document doc = Jsoup.parse(inputStream, "UTF-8", "http://www.google.com.hk/");
Element body = doc.body();
String text = body.text();

下面的的链接是Jsoup的帮助文档：

http://jsoup.org/apidocs/

下面是官方的SDK：

Jsoup1.6.3

还有一个我学习Jsoup的链接：

http://www.oschina.net/code/tag/jsoup

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

A2BGeek

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

使用jsoup解析html的table中的文本信息实例

10-18

在本文中，我们将深入探讨如何使用Jsoup这个Java库来解析HTML文档，特别是提取HTML表格（table）中的文本信息。Jsoup是一个强大的库，它提供了方便的API来处理HTML，包括解析、查找、修改和输出HTML内容。让我们通过...

使用 jsoup 对 HTML 文档进行解析和操作

03-29

**标题：“使用 jsoup 对 HTML 文档进行解析和操作”** **内容概述：** 这篇博客主要探讨了如何利用 jsoup 这个 Java 库来解析和操作 HTML 文档。jsoup 是一个强大的库，它提供了丰富的 API，可以方便地解析 HTML、...

参与评论您还未登录，请先登录后发表或查看评论

使用dom对html文档进行解析

红豆和绿豆的博客

11-16

404

将html文档映射到内存中，然后操作内存中的对象。从而就可以动态的修改页面上的值。将一个html文档映射到内存之后，整个内存类的继承图，就是上面这个图所示的。 HTML元素之间的包含关系如下图所示：

jsoup对于html的解析-爬虫

Ting1king的博客

05-17

158

依赖  <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.11.3</version> </dependency> 代码 //从URL加

html解析的简单方式,Webkit之HTML解析

weixin_42500720的博客

06-10

278

加载部分HTML文本(即主资源)后便可以开始解析HTML元素(对输入字节流进行逐字扫描，识别HTML元素)，最后生成DOM树，本文只讲HTML解析。HTML解析部分时序图：其中最为重要的过程是(1)startToken(2)nextToken(3)endToken(4)constructTreeFromHTMLToken，这里的4步是循环执行的，当输入字符结束时，则跳出循环。HTMLTokeniz...

XML解析——Jsoup解析XML文档

qq_41521264的博客

12-03

371

XML解析方式： DOM方式：将标记语言文档一次性加载到内存中，在内存中形成一DOM树的树形结构优点：操作方式简单，可以对文档很轻易的进行CRUD操作，与JS操作DOM方式几乎一样缺点：占用内存太大，特别消耗资源 XML的常见解析器： JAxp DOM4J Jsoup。当然还有其他这里不一一列举了选用Jsou解析器做演示。使用步骤：导包肯定就不用说了吧加载...

Android使用Jsoup解析Html表格的方法

09-03

总的来说，Android结合Jsoup解析HTML表格涉及的关键点包括：获取HTML字符串，解析HTML，使用选择器定位表格元素，遍历并处理表格行和列，以及将HTML内容转化为Android UI组件。通过熟练掌握这些步骤，你可以构建出...

利用jsoup解析html

12-22

　jsoup 是一款 Java的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。jsoup 的主要功能如下：　（1）从一个 URL，...

jsoup基本操作

小母牛倒立的博客

07-09

685

这里只写我项目中使用较多的其他以后在补上：Document html=Jsoup.parse("这里是一个html标准的string"); Document html=Jsoup.parseBodyFragment(html)；对于那些缺标签的文档进行处理抓取页面的document：1、Document html=Jsoup.connect(urlSource+username)......get...

jsoup-1.13.1-javadoc.jar包，用于对HTML文本的规范化处理

11-30

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

Jsoup操作解析Html文件

12-15

可以在代码解析并修改HTML，添加链接，获得动态资源，支持各种标签，兼容性很好

Jsoup解析xml

FORLOVEHUAN的博客

05-07

1041

从网页中取出想要的信息：导入 <dependency>  <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <versio...

jsoup解析html之table表格

最新发布

极客鼠之家

08-13

1119

jsoup解析html之表格table

Jsoup 乱码问题解决

panzejia的博客

04-07

2737

一般出现这个情况是由于url指向的页面，实际编码与html中描述的编码不符导致。如：开发时用的GBK编码编写，但html中却写UTF-8。典型的就是在中文Windows下用记事本，写一个UTF-8的html就会出现这个问题。你可以不用jsoup.connect，这个会从html描述中识别。你可以用Jsoup.parse(InputStream in, String charsetName, Stri

Jsoup学习之Jsoup类

weixin_30457881的博客

11-28

351

Jsoup类一、类结构 java.lang.Object org.jsoup.Jsoup public classJsoup extends Object Jsoup类来自于org.jsoup.Jsoup包，并且继承自Object类。二、方法 Method ...

Jsoup爬取带权限的乱码网站

清雨夜

08-05

404

前言之前使用pySpider，虽然pySpider使用非常简单，但是在爬取网页的时候会出现漏解析的现象。比如明明有5个<a>标签，他只给你返回2个。这个问题随机出现在各个网页，我很确定不是选择器的问题，目前我对此问题毫无头绪。这时候Jsoup就非常香了。Jsoup爬虫是一个用java语言写的jar包，导入即可使用，非常方便。在使用过程中，没有发现pySpider类似的问题但是仍然遇到了一个小问题，我们在爬网页的时候，有时需要设置网页编码（有些网站自己的编码有问题，要爬取这类网站就比较麻烦

Jsoup爬虫入门实战

G823909的博客

11-28

1134

jsoup 是一款基于 Java 的HTML解析器，它提供了一套非常省力的API，不但能直接解析某个URL地址、HTML文本内容，而且还能通过类似于DOM、CSS或者jQuery的方法来操作数据，所以 jsoup 也可以被当做爬虫工具使用。

使用jsoup高效解析和操作HTML

在深入探讨jsoup之前，让我们先理解一下HTML解析的基本概念。HTML（超文本标记语言）是构建网页的主要语言，由各种标签构成，用于定义网页结构和内容。解析HTML就是将HTML代码转换成可以理解和操作的结构化数据。 ...