Jsoup解析文件
JSoup库是什么
Jsoup是一个开源的Java库,它可以用于处理实际应用中的HTML。它提供了非常便利的API来进行数据的提取及修改,充分利用了DOM,CSS以及jquery风格方法的长处。Jsoup实现了WAHTWG HTML5的规范,它从HTML解析出来的DOM和Chrome以及Firefox这样的现代浏览器解析出来的完全一致。下面是Jsoup库的一些有用的特性:
- Jsoup可以从URL,文件,或者字符串中获取并解析HTML。
- Jsoup可以查找并提取数据,可以使用DOM遍历或者CSS选择器。
- 你可以使用Jsoup来修改HTML元素,属性以及文本。
- Jsoup通过一个安全的白名单确保了用户提交的内容是干净的,以防止XSS攻击。
- Jsoup还能输出整洁的HTML。
使用前需要将jsoup的jar包build path到项目中。jsoup可以从包括字符串、URL地址、以及本地文件来加载HTML文档,并生成Document对象实例。三种解析方式如下:
1. 解析HTML格式的字符串
Document doc = Jsoup.parse(“html格式的字符串”);
- 解析URL指向的页面
Document doc = Jsoup.connect(url).get();
- 解析本地HTML文档
File input = new File(“D:/test.html”);
Document doc = Jsoup.parse(input,”UTF-8”,”http://www.csdn.net/“);
login.html
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1">
<title>Login Page</title>
</head>
<body>
<div id="login" class="simple" >
<form action="login.do">
Username : <input id="username" type="text" /><br>
Password : <input id="password" type="password" /><br>
<input id="submit" type="submit" />
<input id="reset" type="reset" />
</form>
</div>
</body>
</html>
利兹
public class HTMLParser {
public static void main(String args[]){
/**
* 直接解析了一个内容为HTML的字符串
* */
String HTMLSTring = "<!DOCTYPE html>"
+ "<html>"
+ "<head>"
+ "<title>JSoup Example</title>"
+ "</head>"
+ "<body>"
+ "<table><tr><td><h1>Hello world</h1></tr>"
+ "</table>"
+ "</body>"
+ "</html>";
Document html = Jsoup.parse(HTMLSTring);
String title = html.title();
String h1 = html.body().getElementsByTag("h1").text();
System.out.println("Input HTML String to Jsoup:" + HTMLSTring);
System.out.println("Title :" + title);
System.out.println("Heading :" + h1);
/**
* 解析了一个从URL中下载的HTML文件,第三个中我们从本地文件系统中加载了一个HTML文档并进行解析
* */
Document htmlFile = null;
try {
htmlFile = Jsoup.parse(new File("login.html"), "ISO-8859-1");
} catch (Exception e) {
e.printStackTrace();
}
title = htmlFile.title();
Element div =htmlFile.getElementById("login");
String cssClass = div.className();
System.out.println("Jsoup can also parse HTML file directly");
System.out.println("title : " + title);
System.out.println("class of div tag : " + cssClass);
/**
* 解析了一个从URL中下载的HTML文件
* */
Document doc;
try {
doc = Jsoup.connect("http://www.csdn.net/").get();
title = doc.title();
} catch (Exception e) {
e.printStackTrace();
}
System.out.println("Jsoup Can read HTML page from URL, title : " + title);
}
}
使用DOM方法来遍历一个文档
将HTML解析成一个Document之后,就可以使用类似于DOM的方法进行操作。示例代码:
File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
String linkHref = link.attr("href");
String linkText = link.text();
}
说明
Elements这个对象提供了一系列类似于DOM的方法来查找元素,抽取并处理其中的数据。具体如下:
查找元素
- getElementById(String id)
- getElementsByTag(String tag)
- getElementsByClass(String className)
- getElementsByAttribute(String key) (and related methods)
- Element siblings: siblingElements(), firstElementSibling(), lastElementSibling(); nextElementSibling(), previousElementSibling()
- Graph: parent(), children(), child(int index)
元素数据
- attr(String key)获取属性attr(String key, String value)设置属性
- attributes()获取所有属性
id(), className() and classNames()
- text()获取文本内容text(String value) 设置文本内容
- html()获取元素内HTMLhtml(String value)设置元素内的HTML内容
- outerHtml()获取元素外HTML内容
- data()获取数据内容(例如:script和style标签)
- tag() and tagName()
操作HTML和文本
- append(String html), prepend(String html)
- appendText(String text), prependText(String text)
- appendElement(String tagName), prependElement(String tagName)
- html(String value)
Demo
解析果壳网的网站
public class JsoupDemo {
public static void main(String[] args) {
String url = "http://www.guokr.com/scientific/channel/visual/";
try {
Document doc = Jsoup.connect(url).get();
Element masthead = doc.select("div.article-list").first();
Elements titleElements = masthead.select("div.article h3 a");
Elements dateElements = masthead.select("div.article div.article-info");
Elements imgElements = masthead.select("div.article a img");
Elements disElements = masthead.select("div.article p");
int count = titleElements.size();
for (int i = 0; i < count; i++) {
Element titleElement = titleElements.get(i);
Element dateElement = dateElements.get(i);
Element imgElement = imgElements.get(i);
Element disElement = disElements.get(i);
int location = dateElement.text().indexOf("|");
System.out.println("title :" + titleElement.text());
System.out.println("date :" + dateElement.text().substring(location + 1,dateElement.text().length() - 9));
System.out.println("img :" + imgElement.attr("src"));
System.out.println("summary :" + disElement.text());
}
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
title :【科学美图】夜空之美 PK 对抗光害·2016年获奖作品
date :2016-06-14
img :http://3.im.guokr.com/tIjJ8_Vv9HVTFKsVMv3PXzagyyB3XbAfQNTkXOq1KoxKAQAAugAAAEpQ.jpg
summary :一年一度的“地球与天空”国际摄影大赛近日公布结果,获奖的10幅绝美天文风光作品中,有3幅出自中国摄影师之手,快来欣赏!
https://github.com/lxxself/getGank
http://www.jianshu.com/p/4fc8e18cc0e2
Elements这个对象提供了一系列类似于DOM的方法来查找元素,抽取并处理其中的数据。具体如下:
http://www.jcodecraeer.com/a/anzhuokaifa/androidkaifa/2014/1226/2218.html
查找元素,select用法
Jsoup官方文档
使用JSoup解析HTML文件
解析和遍历一个HTML文档
Android网络爬虫程序(基于Jsoup)
抓取csdn上的各类别的文章 (制作csdn app 二)