jsoup:Java Html 解析器
jsoup是一个解析HTML的Java类库,它提供了类似于DOM,CSS和jQuery方法的API,可以方便的去提取和操作数据。
一些特性:
- 可以从一个URL, FILE, 或者 String中解析HTML
- 可以用DOM遍历或CSS选择器去查找和提取数据
- 可以操作HTML 元素、属性和文本
- 可以过滤用户提交的内容,阻止XSS攻击
- 输出干净整洁的HTML代码
jsoup可以处理所有从HTML中发现的元素,包括格式正确的和无效的标签,jsoup根据这些元素创建一个合理的解析树
解析器会尽一切努力从您提供的HTML创建一个干净的解析,无论HTML是否是格式良好的或没有。它可以处理:未关闭的标签、隐式标签、
示例
抓取维基百科首页,解析为一个DOM,并且提取头条新闻转换为一个Elements,简单示例:
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");
开放源代码
jsoup是一个基于MIT协议的开源项目,源代码可以在GitHub中找到,GitHub
开始
1. 下载jsourp jar包(版本:1.7.3),DOWNLOAD
2. 阅读用户手册,用户手册
3. 开始享受jsoup之旅吧
文档对象模型
- 文档对象主要包含元素和文本节点
- 继承链是:Node继承Element,Element继承Document,TextNode继承Node
- 一个Element的子节点可能包含一个或多个Node,也可能是一个或多个子Element。 并且有一个父Element。