Jsoup入门教程

最新推荐文章于 2024-08-22 22:09:54 发布

骚年sec03

最新推荐文章于 2024-08-22 22:09:54 发布

阅读量2.4k

点赞数 1

分类专栏：网络爬虫 java

本文链接：https://blog.csdn.net/qq_32600229/article/details/78246265

版权

java 同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

网络爬虫

3 篇文章 0 订阅

订阅专栏

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

jsoup的主要功能如下：

1. 从一个URL，文件或字符串中解析HTML；

2. 使用DOM或CSS选择器来查找、取出数据；

3. 可操作HTML元素、属性、文本；

注：jsoup是基于MIT协议发布的，可放心使用于商业项目。

以下我们用代码演示常用方法：

package com.open111.demo;


import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;



public class JsoupTest {

	public static void main(String[] args) throws Exception{
		
		//HttpClient请求获取网页html
		CloseableHttpClient client=HttpClients.createDefault();
		HttpGet get=new HttpGet("http://www.baidu.com");
		CloseableHttpResponse response=client.execute(get);
		String content="";
		if(response.getStatusLine().getStatusCode()==200){
			content=EntityUtils.toString(response.getEntity(), "UTF-8");
			System.out.println(content);
		}
		//将前面获取到的html文本转换为Document对象
		Document doc=Jsoup.parse(content);
		//获取标签名为title的dom节点
		Elements elements=doc.getElementsByTag("title");
		//获取标签名为a的dom节点
		Elements elements2=doc.getElementsByTag("a");
		String titleText=elements.get(0).text();
		System.out.println(titleText);
		//循环打印element2中的节点信息
		for(int i=0;i<elements2.size();i++){
			System.out.println(elements2.get(i));
			System.out.println(elements2.get(i).attr("name"));
			System.out.println(elements2.get(i).text());
		}
		
		
		//Jsoup选择器
		
		//查询doc中a标签
		Elements resultLinks1 = doc.select("a");
		//查询doc中的input标签，条件为name=tn
		Elements resultLinks2 = doc.select("input[name=tn]");
		//查询doc中的img标签，条件为图片路径以.png结尾
		Elements resultLinks3 = doc.select("img[src$=.png]");
		
		
		System.out.println(resultLinks1);
		System.out.println(resultLinks2);
		System.out.println(resultLinks3);
		
		//关闭HttpClient连接
		client.close();
	}
}

推荐大家一个Java的学习网站：Java知识学习网,Java资料下载，Java学习路线图，网址：https://www.java1010.com