XML相关

最新推荐文章于 2024-07-19 13:24:24 发布

sw_eet

最新推荐文章于 2024-07-19 13:24:24 发布

阅读量133

点赞数

文章标签： xml java

本文链接：https://blog.csdn.net/sw_eet/article/details/104693220

版权

XML

概念，可扩展标记语言

可扩展，标签都是自定义的
功能，存储数据。配置文件，在网络中传输
XML与HTML的区别
- xml标签都是自定义的，HTML标签是预定义的
- xml语法严格，html语法松散
- xml是存储数据，HTML是展示数据

语法

基本语法
1. xml文件的后缀为，.xml
2. xml文件第一行必定为文档申明
3. xml文档有且只有一个根标签
4. 属性值必须使用引号（单双都可以）引起来
5. 标签必须正确关闭，有头有尾或者自闭和
6. 区分大小写

快速入门


<users>
	<user id='1'>
		<name>zhangsan</name>
		<age>18</age>
		<gender>man</gender>
	</user>
	<user id='2'>
		<name>lisi</name>
		<age>19</age>
		<gender>woman</gender>
	</user>
</users>

组成部分

文档申明
- 格式，<?xml 属性列表 ?>
- 属性列表
- version，版本号，必须的属性
- encoding，编码方式，默认ISO-8859-1
- standalone，是否独立
1. 指令，结合css使用的
2. 标签，标签名自定义
  - 不能数字开头
  - 名称不包含空格，不能以xml开始
3. 属性
  - id值唯一
4. 文本
  - CDATE区，区域里的代码会被原样展示
  - 格式，<![CDATE[ 你要写的东西]]>

约束
- 规定xml的书写规则
分类
- DTD，一种简单的约束
  - 内部DTD，将约束规定在xml中
  - 外部DTD，将文档规定在外部DTD文件中
    - 本地，<!DOCPYTE 根标签名 SYSTEM "DTD文件位置">
    - 网络，<!DOCPYTE 根标签名 SYSTEM "DTD文件位置" "DTD文件的url">
- Schema，一种复杂的约束技术
  - 引入
    - 填写xml文档根元素
    - 引入xsi前缀，xmlns:xsi=“http://www.w3.org/2001/XMLSchema”
    - 引入xsd文件命名空间， xsi:schemaLocation=“http://www.w3.org/2001/XMLSchema”
    - 为每一个xsd约束，申明一个前缀，作为标识xmlns=”http://www.example.org/05“
```
<student	xmlns:xsi="http://www.w3.org/2001/XMLSchema"
         	xsi:schemaLocation="http://www.w3.org/2001/XMLSchema"
         	xmlns="http://www.example.org/05"
         >
```

解析

将xml文档中的数据，读取到内存中
1. 解析，将文档中的数据读取到内存中
2. 写入，将内存中的数据写到xml文件中，持久化的存储
解析xml的方式
1. DOM，将标记语言文档一次性加载进内存，在内存中形成一颗DOM树
  - 优点
    
    操作方便，可以对文档进行CRUD的操作
  - 缺点
    
    占用大量内存
2. SAX，逐行读取，基于事件驱动
  - 优点
    
    占内存小
  - 缺点
    
    只能读取，不能增删改
xml的解析器
- JASP，sun公司的，支持DOM、SAX
- DOM4J，优秀
- Jsoup，jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。
- PULL，安卓内置的解析器，sax方式
Jsoup的使用
- 使用步骤
  1. 导入相应的jar包
  2. 获取document文档标签
  3. 获取对应的标签
  4. 获取数据

package it.hello;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.File;
import java.io.IOException;

/*
    Jsoup快速入门
*/
public class JsoupDemo01 {
    public static void main(String[] args) throws IOException {
        //1 获取document对象
        //2.获取xml文件的路径
        String path = JsoupDemo01.class.getClassLoader().getResource("student.xml").getPath();
        //解析xml文档，加载进内存，获取dom树
        Document document = Jsoup.parse(new File(path), "utf-8");
        //3.获取元素对象
        Elements elements = document.getElementsByTag("name");
        System.out.println(elements.size());//2

        //获取第一个name的element对象
        Element element = elements.get(0);
        System.out.println(element);//<name>tom</name>
        //获取数据
        String name = element.text();
        System.out.println(name);//tom
    }
}

<?xml version="1.0" encoding="utf-8" ?>
<students>
    <student id="1">
        <name name="1100">
            <xing>tom</xing>
            <ming>make</ming>
        </name>
        <age>18</age>
        <gender>male</gender>
    </student>
    <student id="2">
        <name name="0011">jack</name>
        <age>18</age>
        <gender>famale</gender>
    </student>
</students>

对象的使用

Jsoup，工具类可以解析xml与html文档，返回Document

parse()，解析xml、html返回Document对象

parse(File in,String charsetName)，解析xml、html文件

parse(String html)，解析html、xml字符串

parse(URL url, int timeoutMillis)，通过网络路径获取html、xml文件

package it.hello;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.File;
import java.io.IOException;

/*
    Jsoup快速入门
*/
public class JsoupDemo02 {
    public static void main(String[] args) throws IOException {
        //1 获取document对象
        //2.获取xml文件的路径
        String path = JsoupDemo02.class.getClassLoader().getResource("student.xml").getPath();
       /* //解析xml文档，加载进内存，获取dom树
        Document document = Jsoup.parse(new File(path), "utf-8");
        System.out.println(document);*/
       //解析xml，html字符串
        String str="<?xml version=\"1.0\" encoding=\"utf-8\" ?>\n" +
                "<students>\n" +
                "    <student id=\"1\">\n" +
                "        <name>tom</name>\n" +
                "        <age>18</age>\n" +
                "        <gender>male</gender>\n" +
                "    </student>\n" +
                "    <student id=\"2\">\n" +
                "        <name>jack</name>\n" +
                "        <age>18</age>\n" +
                "        <gender>famale</gender>\n" +
                "    </student>\n" +
                "</students>\n";
        Document parse = Jsoup.parse(str);
        System.out.println(parse);
    }
}

Document，文档对象，代表内存中的dom树

获取Element对象

getElementsByTag(String tagName)，根据标签名称获取元素对象集合

getElementsByAttribute(String key)，根据属性名称来获取元素对象集合

getElementsByAttributeValue(String key, Stringvalue)，根据属性名，属性值来获取元素对象集合

getElementById(String id)，根据id属性值，获取唯一的Element对象

package it.hello;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.File;
import java.io.IOException;

/*
    Jsoup快速入门
*/
public class JsoupDemo03 {
    public static void main(String[] args) throws IOException {
        //1 获取document对象
        //2.获取xml文件的路径
        String path = JsoupDemo03.class.getClassLoader().getResource("student.xml").getPath();
        //解析xml文档，加载进内存，获取dom树
        Document document = Jsoup.parse(new File(path), "utf-8");
        //3.获取元素对象
       //3.1获取所有student对象
        Elements student = document.getElementsByTag("student");
        System.out.println(student);
        System.out.println("=========================================");
        //3.2获取属性名为id的对象
        Elements id = document.getElementsByAttribute("id");
        System.out.println(id);
        System.out.println("=========================================");
        //3.3获取name属性职位1100的元素
        Elements name = document.getElementsByAttributeValue("name", "1100");
        System.out.println(name);
        System.out.println("=========================================");
        //3.4获取id属性值为1的元素
        Element elementById = document.getElementById("1");
        System.out.println(elementById);
    }
}

Elements，元素element对象集合，可以当做ArrayList来使用
Element，元素对象
1. 获取子元素对象
  
  getElementsByTag(String tagName)，根据标签名称获取元素对象集合
  
  getElementsByAttribute(String key)，根据属性名称来获取元素对象集合
  
  getElementsByAttributeValue(String key, Stringvalue)，根据属性名，属性值来获取元素对象集合
  
  getElementById(String id)，根据id属性值，获取唯一的Element对象
2. 获取属性值
  
  String attr(String attributeKey)，根据属性名称获取属性值
3. 获取文本内容
  
  String text()，获取文本内容
  
  String html()，获取标签体的所有内容，包括子标签的字符串内容
Node，节点对象
- 是Document和Element的父类

package it.hello;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.File;
import java.io.IOException;

/*
    Jsoup快速入门
*/
public class JsoupDemo04 {
    public static void main(String[] args) throws IOException {
        //1 获取document对象
        //2.获取xml文件的路径
        String path = JsoupDemo04.class.getClassLoader().getResource("student.xml").getPath();
        //解析xml文档，加载进内存，获取dom树
        Document document = Jsoup.parse(new File(path), "utf-8");
        //3.获取元素对象
       //3.1获取所有student对象
        Elements student = document.getElementsByTag("student");
        System.out.println(student.size());
        //3.2获取Element子标签对象
        Element student1 = document.getElementsByTag("student").get(0);
        Elements name = student1.getElementsByTag("name");
        System.out.println(name);
        System.out.println("================================");
        //3.3获取student对象属性值
        String name1 = student1.attr("id");//属性名不区分大小写
        System.out.println(name1);
        System.out.println("================================");
        //3.4获取文本内容
        String text = name.text();
        System.out.println(text);
        System.out.println("================================");
        String html = name.html();
        System.out.println(html);
        System.out.println("================================");
    }
}

快捷查询方式

selector，选择器

select(String cssQuery)

语法，参考selector类，里面的语法

package it.hello;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.File;
import java.io.IOException;

/*
    Jsoup快速入门
*/
public class JsoupDemo05 {
    public static void main(String[] args) throws IOException {
        //1 获取document对象
        //2.获取xml文件的路径
        String path = JsoupDemo05.class.getClassLoader().getResource("student.xml").getPath();
        //解析xml文档，加载进内存，获取dom树
        Document document = Jsoup.parse(new File(path), "utf-8");
       //查询name标签
        Elements name = document.select("name");
        System.out.println(name);
        System.out.println("================================");
        //查询id为1的元素
        Elements select = document.select("#1");
        System.out.println(select);
        System.out.println("================================");
        //查询id=1
        Elements select1 = document.select("student[ id=\"1\"]");
        System.out.println(select1);
        System.out.println("================================");
        //查询id=1的子标签age
        Elements select2 = document.select("student[ id=\"1\"] > age");
        System.out.println(select2);
        System.out.println("================================");
        String text = select2.text();
        System.out.println(text);
    }
}

Xpath，路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。

使用jsoup的Xpath需要额外导入jar包

package it.hello;

import cn.wanghaomiao.xpath.exception.XpathSyntaxErrorException;
import cn.wanghaomiao.xpath.model.JXDocument;
import cn.wanghaomiao.xpath.model.JXNode;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

import java.io.File;
import java.io.IOException;
import java.util.List;

/*
    Xpath快速入门
*/
public class JsoupDemo06 {
    public static void main(String[] args) throws IOException, XpathSyntaxErrorException {
        //1 获取document对象
        //2.获取xml文件的路径
        String path = JsoupDemo06.class.getClassLoader().getResource("student.xml").getPath();
        //解析xml文档，加载进内存，获取dom树
        Document document = Jsoup.parse(new File(path), "utf-8");
       //根据document对象，创建JXDocument对象
        JXDocument jxDocument = new JXDocument(document);
        //结合Xpath语法开始查询
        List<JXNode> jxNodes = jxDocument.selN("//student");
        System.out.println(jxNodes);
        System.out.println("================================");
        //选取student下的所有name
        List<JXNode> jxNodes1 = jxDocument.selN("//student/name");
        System.out.println(jxNodes1);
        System.out.println("================================");
        //查询带有name属性的name标签
        List<JXNode> jxNodes3 = jxDocument.selN("//student/name[@name]");
        System.out.println(jxNodes3);
        System.out.println("================================");
        //查询带有name属性的name标签,并且name=0011
        List<JXNode> jxNodes4 = jxDocument.selN("//student/name[@name='0011']");
        System.out.println(jxNodes4);
        System.out.println("================================");

    }
}

sw_eet

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
XML相关

XML概念，可扩展标记语言可扩展，标签都是自定义的功能，存储数据。配置文件，在网络中传输XML与HTML的区别xml标签都是自定义的，HTML标签是预定义的xml语法严格，html语法松散xml是存储数据，HTML是展示数据语法基本语法xml文件的后缀为，.xmlxml文件第一行必定为文档申明xml文档有且只有一个根标签属性值必须使用引号（单双都...
复制链接

扫一扫