网络爬虫2----JSoup解析HTML
什么是Jsoup?
Jsoup是Java HTML解析器,用于处理真实世界的HTML的Java库。它提供了一个非常方
便的API来提取操作数据。
Jsoup类:Jsoup功能的核心访问连接点,该类的所有方法都是静态的。
常用的方法有:
connect(String url) 作用:对给定url创建一个新的连接
parse(File in, String charsetName) 作用:解析文件的内容,返回Document对象
该方法有多个重载,有兴趣的可以自己查看API,这里就不详细介绍了。
什么是Jsoup?
Jsoup是Java HTML解析器,用于处理真实世界的HTML的Java库。它提供了一个非常方
便的API来提取操作数据。
Jsoup类:Jsoup功能的核心访问连接点,该类的所有方法都是静态的。
常用的方法有:
connect(String url) 作用:对给定url创建一个新的连接
parse(File in, String charsetName) 作用:解析文件的内容,返回Document对象
该方法有多个重载,有兴趣的可以自己查看API,这里就不详细介绍了。
示例:
package com.ficle;
import java.io.File;
import java.io.IOException;
import java.util.Iterator;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class JsoupDemo {
public static void main(String[] args) throws IOException{
myJsoup();
}
/**
* @throws IOException
*/
public static void myJsoup() throws IOException{
//构建文件
File file = new File("src\\test.html");
Document doc = Jsoup.parse(file,"UTF-8");
Elements e = doc.getElementsByTag("p");
//遍历元素
for (Iterator<Element> iterator = e.iterator(); iterator.hasNext();) {
Element element = iterator.next();
String s = element.text();
System.out.println(s);
}
}
}
运行截图: