JavaScript 中 xml 的解析(jsoup 解析器)

目录

一、概述

二、dom 和 sax 解析对比

三、解析器

四、Jsoup 解析器

1、导入 jar 包

2、获取 Document 对象

3、获取对应的标签 Element 对象

4、获取数据

5、快捷查询


一、概述

xml 的解析就是操作 xml 文档,将文档内容读取到内存中,解析的方法两种

  1. dom:将标记语言文档一次性加载到内存,在内存中形成一颗 dom 树
  2. sax:逐行解析

二、dom 和 sax 解析对比

dom 解析:

  • 根据 xml 的层级结构在内存中分配一个树形结构,把 xml 的标签,属性和文本都封装成对象
  • 优点:很方便实现增、删、改操作
  • 缺点:消耗内存,会造成内存溢出

sax 解析:

  • 采用事件驱动,边读边解析
    • 从上到下,一行一行的解析,解析到某个对象就返回对象名称
  • 优点:不占内存,方便实现查询操作
  • 缺点:只能读取,不能实现增、删、改操作

三、解析器

不同的公司和组织提供了针对 dom 和 sax 方式的解析器,都是通过 api 方式提供的,主要有:

  • sun 公司提供的针对 dom 和 sax 解析器:Jaxp
  • dom4j 组织提供的针对 dom 和 sax 解析器:dom4j(开发中用的最多)
  • jdom 组织提供的针对 dom 和sax 解析器:Jdom
  • Java的HTML解析器,可以直接解析URL地址、HTML 文本内容:Jsoup

四、Jsoup 解析器

1、导入 jar 包

导入 jsoup-1.12.1.jar 包

链接:https://pan.baidu.com/s/1wz8NKy2xgqTV5lzc4CbaQQ 
提取码:rwwo 

2、获取 Document 对象

  • parse()方法:解析 HTML 或 xml 文档,返回 Document 对象
    • parse(File in,String charsetName):解析 xml 或 HTML 文件
    • parse(String html):解析 xml 或 HTML 字符串
    • parse(URL url,int timeoutMillis):通过网络路径获取指定的 HTML 或 xml 文档对象

3、获取对应的标签 Element 对象

  • getElementById(String id):根据id属性值获取唯一的element对象
  • getElementByTag(String tagName):根据标签名称获取元素对象集合
  • getElementByAttribute(String key):根据属性名称获取元素对象集合
  • getElementByAttributeValue(String key,String value):根据对应的属性名称和属性值获取元素对象集合

4、获取数据

public static void main(String[] args) throws IOException {
    //1.获取Document对象
    String path = jsoup.class.getClassLoader().getResource("person.xml").getPath();
    Document document = Jsoup.parse(new File(path),"utf-8");

    //2.获取元素Element对象
    Elements elements = document.getElementsByTag("name");
    System.out.println(elements);
    System.out.println("******************");

    //3.获取第一个name的Element对象
    Element element = elements.get(0);
    System.out.println(element.text());
    System.out.println("******************");

    //4.获取属性名为pid的元素对象
     Elements elements1 = document.getElementsByAttribute("id");
     System.out.println(elements1);
     System.out.println("******************");

     //5.获取number属性值为15450132的元素对象
     Elements elements2 = document.getElementsByAttributeValue("number","15450132");
     System.out.println(elements2);
     System.out.println("******************");
     //根据id属性获取element对象
     Element element1 = document.getElementById("一颗星");
     System.out.println(element1);
}

5、快捷查询

【1】selector:选择器

使用上面的查询需要先查询到上一级元素才能往下查询,工作量比较大,jsoup 就提供了一种快捷查询的方法,即使用 selector 选择器

  • Elements select(String cssQuery)
public static void main(String[] args) throws IOException {
    //1.获取Document对象
    String path = jsoup.class.getClassLoader().getResource("person.xml").getPath();
    Document document = Jsoup.parse(new File(path),"utf-8");
    
    //获取name标签
    Elements elements = document.select("name");
    System.out.println(elements);
    System.out.println("***********");

    //查询id值为pid的元素
    Elements elements1 = document.select("#一颗星");
    System.out.println(elements1);
    System.out.println("***********");

    //获取指定标签下的指定标签
    //先获取指定标签
    //Elements elements2 = document.select("p1[id="pid"]");
    //再获取指定标签下的标签
    Elements elements2 = document.select("p1[id=\"pid\"] > age");
    System.out.println(elements2);
}

【2】XPath

快捷查询还有一种 xpath 方法查询,这个在下一篇 dom4j 解析器叙述

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ONESTAR博客

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值