网络爬虫2----JSoup解析HTML

最新推荐文章于 2023-07-09 21:26:23 发布

ficle123

最新推荐文章于 2023-07-09 21:26:23 发布

阅读量294

点赞数

文章标签：网络爬虫 Jsoup

本文链接：https://blog.csdn.net/ficle123/article/details/53838694

版权

网络爬虫2----JSoup解析HTML

什么是Jsoup?
Jsoup是Java HTML解析器，用于处理真实世界的HTML的Java库。它提供了一个非常方
便的API来提取操作数据。

Jsoup类：Jsoup功能的核心访问连接点，该类的所有方法都是静态的。
常用的方法有：
connect(String url) 作用：对给定url创建一个新的连接
parse(File in, String charsetName) 作用：解析文件的内容，返回Document对象
该方法有多个重载，有兴趣的可以自己查看API，这里就不详细介绍了。

示例：

package com.ficle;

import java.io.File;
import java.io.IOException;
import java.util.Iterator;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class JsoupDemo {

	public static void main(String[] args) throws IOException{
		myJsoup();
	}
	
	
	/**
	 * @throws IOException
	 */
	public static void myJsoup() throws IOException{
		//构建文件
		File file = new File("src\\test.html");
		Document doc = Jsoup.parse(file,"UTF-8");
		Elements e = doc.getElementsByTag("p");
		//遍历元素
		for (Iterator<Element> iterator = e.iterator(); iterator.hasNext();) {
			Element element = iterator.next();			
			String s = element.text();
			System.out.println(s);
		}
	}
}