java 爬虫 网页解析(Jsoup)

上一篇演示了怎样使用HttpClient建立连接获取网页内容,接下来展示使用第三方开源分析工具Jsoup对获取到的网页进行分析,爬取需要的信息。


一、Jsoup

Jsoup是一款Java的HTML解析器,可以直接解析某个URI地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出需要的网页内容和信息。下载地址:http://jsoup.org/download

在使用Jsoup解析HTML文本文件前,需要对HTML文本格式有一些了解。如果你已经熟悉HTML直接跳到“二、解析过程”。一个HTML文本文档是由若干的标签组标记成,这些标签当中含有单标签和复标签,其中单标签不会再含有子标签,而复标签可以含有若干个子标签。基于这样的模型,整个HTML文档构成一棵DOM树,就文档来看(浏览器解析时根节点是document),这棵树的根标签是<html>。如下的HTML对应的DOM树:

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<meta charset="UTF-8">
<title>Title</title>
<link rel="stylesheet" type="text/css" href="css/start.css" />
</head>
<body>
     <div class="blank" ></div>
     <div class="header">
    	<div class="logo">
        	<img src="img/logo.png" alt="LOGO" /
  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值