java 爬虫网页解析（Jsoup）

最新推荐文章于 2024-07-26 18:19:30 发布

vamesary

最新推荐文章于 2024-07-26 18:19:30 发布

阅读量2k

点赞数 1

分类专栏： java 应用 jsoup 文章标签： java 爬虫 html解析器 jsoup

本文链接：https://blog.csdn.net/vamesary/article/details/72597782

版权

本文介绍了如何使用Java的HTML解析库Jsoup解析网页内容。首先讲解了Jsoup的基本概念和下载方式，然后详细阐述了解析HTML的过程，包括通过标签名、class属性、id属性以及子元素进行解析的方法，以及如何获取标签属性和文本内容。这些技巧对于有效地爬取和提取网页信息至关重要。

摘要由CSDN通过智能技术生成

上一篇演示了怎样使用HttpClient建立连接获取网页内容，接下来展示使用第三方开源分析工具Jsoup对获取到的网页进行分析，爬取需要的信息。

一、Jsoup

Jsoup是一款Java的HTML解析器，可以直接解析某个URI地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出需要的网页内容和信息。下载地址：http://jsoup.org/download

在使用Jsoup解析HTML文本文件前，需要对HTML文本格式有一些了解。如果你已经熟悉HTML直接跳到“二、解析过程”。一个HTML文本文档是由若干的标签组标记成，这些标签当中含有单标签和复标签，其中单标签不会再含有子标签，而复标签可以含有若干个子标签。基于这样的模型，整个HTML文档构成一棵DOM树，就文档来看（浏览器解析时根节点是document），这棵树的根标签是<html>。如下的HTML对应的DOM树：

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<meta charset="UTF-8">
<title>Title</title>
<link rel="stylesheet" type="text/css" href="css/start.css" />
</head>
<body>
     <div class="blank" ></div>
     <div class="header">
    	<div class="logo">
        	<img src="img/logo.png" alt="LOGO" /