XML解析

星屑幻想

已于 2022-04-27 23:24:55 修改

阅读量726

点赞数

文章标签： eclipse java

于 2022-04-27 23:15:09 首次发布

本文链接：https://blog.csdn.net/Stardust_fantasy/article/details/124460626

版权

这次使用的代码来自：

https://zhuanlan.zhihu.com/p/191476342

xml解析

xml文件主要用来传输数据，作为配置文件，或者存储数据。不管做为哪种应用，最终都需要把xml中的数据解析出来。就必须研究xml的解析。解析xml技术其实是W3C组织指定的。而其他的编程语言都对W3C组织给出的解析xml的规则做了适合自己语言的实现。

Java语言解析xml文档

sun公司针对W3C组织指定的xml的解析也做了自己的实现。

JAXP解析:
DOM 是 XML Document Object Model 的缩写，即 XML 文档对象模型。

DOM解析：先把整个xml文件加载内存中。然后从头开始解析。会得到一个dom树。这样我们就可以获取xml中的任何一个标签对象，就可以获取到其中的标签的属性，文本等信息。

SAX解析：一边读一边仍。读一行解析一行。

第三方公司也指定了基于W3C给的解析规则，指定了更加灵活的解析：
jdom解析，dom4j解析，pull解析

学习dom for java：dom4j解析：dom4j解析不是sun公司的技术。而是第三方公司给出的技术，我们要使用dom4j就必须到dom4j官网去下载他们的jar包。

在这里插入图片描述

DOM

根据 DOM，XML 文档中的每个成分都是一个节点。

DOM 是这样规定的：

1.整个文档(文件)是一个文档节点 - document

2.每个 XML 标签是一个元素节点 - element - 节点，元素，标签

3.包含在 XML 元素中的文本是文本节点，text

4.每一个 XML 属性是一个属性节点 ,attribute

5.注释属于注释节点

方法有：

getElementsByTagName(TagName) 返回拥有指定标签名的所有元素。其中的元素的顺序是它们在源文档中出现的顺序。

如：x 是一个节点对象

1.x.getElementsByTagName(name) - 获取带有指定标签名称的所有元素

2.x.appendChild(node) - 向 x 插入子节点

3.x.removeChild(node) - 从 x 删除子节点

4.x.nodeName - x 的名称

5.x.nodeValue - x 的值

6.x.parentNode - x 的父节点

7.x.childNodes - x 的子节点

8.x.attributes - x 的属性节点

9.setAttribute() - 为某个元素添加属性

展示的代码

xml文件

<?xml version="1.0" encoding="UTF-8"?>
<bookstore>
    <book id="1">
        <name>冰与火之歌</name>
        <author>乔治马丁</author>
        <year>2014</year>
        <price>89</price>
    </book>
    <book id="2">
        <name>安徒生童话</name>
        <year>2004</year>
        <price>77</price>
        <language>English</language>
    </book>    
</bookstore>

Java文件

package xml;

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.parsers.ParserConfigurationException;

import org.w3c.dom.Document;
import org.w3c.dom.NamedNodeMap;
import org.w3c.dom.Node;
import org.w3c.dom.NodeList;

public class Demo1 {
	public static void main(String[] args) throws Exception {
        //创建一个DocumentBuilderFactory的对象
        DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
        //创建一个DocumentBuilder的对象
        //创建DocumentBuilder对象
        DocumentBuilder db = dbf.newDocumentBuilder();
        //通过DocumentBuilder对象的parser方法加载books.xml文件到当前项目下
        Document document = db.parse("src/xml/books.xml");
        //获取所有book节点的集合
        NodeList bookList = document.getElementsByTagName("book");
        //通过nodelist的getLength()方法可以获取bookList的长度
        System.out.println("一共有" + bookList.getLength() + "本书");
        //遍历每一个book节点
        for (int i = 0; i < bookList.getLength(); i++) {
            System.out.println("=================下面开始遍历第" + (i + 1) + "本书的内容=================");
            //通过 item(i)方法 获取一个book节点，nodelist的索引值从0开始
            Node book = bookList.item(i);
            //获取book节点的所有属性集合
            NamedNodeMap attrs = book.getAttributes();
            System.out.println("第 " + (i + 1) + "本书共有" + attrs.getLength() + "个属性");
            //遍历book的属性
            for (int j = 0; j < attrs.getLength(); j++) {
                //通过item(index)方法获取book节点的某一个属性
                Node attr = attrs.item(j);
                //获取属性名
                System.out.print("属性名：" + attr.getNodeName());
                //获取属性值
                System.out.println("--属性值" + attr.getNodeValue());
            }
            //解析book节点的子节点
            NodeList childNodes = book.getChildNodes();
            //遍历childNodes获取每个节点的节点名和节点值
            System.out.println("第" + (i+1) + "本书共有" + 
            childNodes.getLength() + "个子节点");
            for (int k = 0; k < childNodes.getLength(); k++) {
                //区分出text类型的node以及element类型的node
                if (childNodes.item(k).getNodeType() == Node.ELEMENT_NODE) {
                    //获取了element类型节点的节点名
                    System.out.print("第" + (k + 1) + "个节点的节点名：" 
                    + childNodes.item(k).getNodeName());
                    //获取了element类型节点的节点值
                    System.out.println("--节点值是：" + childNodes.item(k).getFirstChild().getNodeValue());
                    //System.out.println("--节点值是：" + childNodes.item(k).getTextContent());
                }
            }
            System.out.println("======================结束遍历第" + (i + 1) + "本书的内容=================");
        }
	}
}

Dom4j

由于DOM技术的解析，存在很多缺陷，比如内存溢出，解析速度慢等问题，所以就出现了DOM4J解析技术，DOM4J技术的出现大大改进了DOM解析技术的缺陷。

DOM4J 表现更优秀，具有性能优异、功能强大和极端易用使用的特点，只要懂得DOM基本概念，就可以通过dom4j的api文档来解析xml。dom4j是一套开源的api。实际项目中，往往选择dom4j来作为解析xml的利器。

使用步骤：

1：导入dom4j的依赖包

2：创建SAXReader实例对象：来读取XML文档

3：使用SAXReader对象的read方法读取xml文件

4：对xml文件中的元素进行操作(CRUD)

Java文件

package xml;

import java.awt.print.Book;
import java.io.File;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;

import org.dom4j.Attribute;
import org.dom4j.Document;
import org.dom4j.DocumentException;
import org.dom4j.Element;
import org.dom4j.io.SAXReader;

public class Demo2 {
    public static void main(String[] args) throws Exception {
        // 解析books.xml文件
        // 创建SAXReader的对象reader
        SAXReader reader = new SAXReader();
        // 通过reader对象的read方法加载books.xml文件,获取docuemnt对象。
        Document document = reader.read(new File("src/xml/books.xml"));
        // 通过document对象获取根节点bookstore
        Element bookStore = document.getRootElement();
        // 通过element对象的elementIterator方法获取迭代器
        Iterator it = bookStore.elementIterator();
        // 遍历迭代器，获取根节点中的信息（书籍）
        while (it.hasNext()) {
            System.out.println("=====开始遍历某一本书=====");
            Element book = (Element) it.next();
            // 获取book的属性名以及 属性值
            List<Attribute> bookAttrs = book.attributes();
            for (Attribute attr : bookAttrs) {
                System.out.println("属性名：" + attr.getName() + "--属性值："
                        + attr.getValue());
            }
            Iterator itt = book.elementIterator();
            while (itt.hasNext()) {
                Element bookChild = (Element) itt.next();
                System.out.println("节点名：" + bookChild.getName() + "--节点值：" + bookChild.getStringValue());
            }
            System.out.println("=====结束遍历某一本书=====");
        }
    }
}