解析xml文档之Jsoup

最新推荐文章于 2022-04-29 12:03:19 发布

玄月无疆

最新推荐文章于 2022-04-29 12:03:19 发布

阅读量144

点赞数

分类专栏： java 文章标签： java xml

本文链接：https://blog.csdn.net/echo245/article/details/115026616

版权

java 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

1.导入jspup.jar包
2.创建jsoup对象

public class JsoupDemo01 {
    public static void main(String[] args) throws IOException {
  		 //1.获取xml文档
        String path = JsoupDemo01.class.getClassLoader().getResource("student.xml").getPath();
        //2、获取dom tree
        Document document = Jsoup.parse(new File(path), "utf-8");
        //3、操作元素
        Elements elements = document.getElementsByTag("name");
        System.out.println(elements.size());
        System.out.println(elements.text());

    }
}

对象的使用：
1. Jsoup：工具类，可以解析html或xml文档，返回Document
  - parse：解析html或xml文档，返回Document
    - parse(File in, String charsetName)：解析xml或html文件的。
    - parse(String html)：解析xml或html字符串
    - parse(URL url, int timeoutMillis)：通过网络路径获取指定的html或xml的文档对象
2. Document：文档对象。代表内存中的dom树
  - 获取Element对象
    - getElementById(String id)：根据id属性值获取唯一的element对象
    - getElementsByTag(String tagName)：根据标签名称获取元素对象集合
    - getElementsByAttribute(String key)：根据属性名称获取元素对象集合
    - getElementsByAttributeValue(String key, String value)：根据对应的属性名和属性值获取元素对象集合
3. Elements：元素Element对象的集合。可以当做 ArrayList来使用
4. Element：元素对象
  1. 获取子元素对象
    - getElementById(String id)：根据id属性值获取唯一的element对象
    - getElementsByTag(String tagName)：根据标签名称获取元素对象集合
    - getElementsByAttribute(String key)：根据属性名称获取元素对象集合
    - getElementsByAttributeValue(String key, String value)：根据对应的属性名和属性值获取元素对象集合
  2. 获取属性值
    - String attr(String key)：根据属性名称获取属性值
  3. 获取文本内容
    - String text():获取文本内容
    - String html():获取标签体的所有内容(包括字标签的字符串内容)
5. Node：节点对象
  - 是Document和Element的父类

4.工具

快捷查询方式：
1. selector:选择器
* 使用的方法：Elements select(String cssQuery)
* 语法：参考Selector类中定义的语法
2. XPath：XPath即为XML路径语言，它是一种用来确定XML（标准通用标记语言的子集）文档中某部分位置的语言
* 使用Jsoup的Xpath需要额外导入jar包。
* 查询w3cshool参考手册，使用xpath的语法完成查询