jsoup文档之简介(翻译)

jsoup:Java Html 解析器


jsoup是一个解析HTML的Java类库,它提供了类似于DOM,CSS和jQuery方法的API,可以方便的去提取和操作数据。

一些特性:

  • 可以从一个URL, FILE, 或者 String中解析HTML
  • 可以用DOM遍历或CSS选择器去查找和提取数据
  • 可以操作HTML 元素、属性和文本
  • 可以过滤用户提交的内容,阻止XSS攻击
  • 输出干净整洁的HTML代码

jsoup可以处理所有从HTML中发现的元素,包括格式正确的和无效的标签,jsoup根据这些元素创建一个合理的解析树

解析器会尽一切努力从您提供的HTML创建一个干净的解析,无论HTML是否是格式良好的或没有。它可以处理:未关闭的标签、隐式标签、

示例

抓取维基百科首页,解析为一个DOM,并且提取头条新闻转换为一个Elements,简单示例:

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");

开放源代码

jsoup是一个基于MIT协议的开源项目,源代码可以在GitHub中找到,GitHub

开始

1. 下载jsourp jar包(版本:1.7.3),DOWNLOAD  
2.  阅读用户手册,用户手册     
3. 开始享受jsoup之旅吧

文档对象模型

  • 文档对象主要包含元素和文本节点
  • 继承链是:Node继承Element,Element继承Document,TextNode继承Node
  • 一个Element的子节点可能包含一个或多个Node,也可能是一个或多个子Element。 并且有一个父Element。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值