SAX解析XML返回对应格式的Map对象

前言

最近有一个解析大型xml的需求,xml大小7M,其中xml结构非常复杂,元素各种嵌套

不乏有元素下对象,元素下集合,集合下对象,集合下集合,兄弟不同元素节点,元素下对象下集合,同一元素下不同对象和集合...很复杂

注意:本方式无法解析递归元素,文末给出解决方式

 简介

本文使用了SAX解析XML,SAX对内存比较友好,但是对于编码比较复杂,但是本篇代码量不是很多,主要都集中在一个继承了DefaultHandler的处理类,该处理类中主要使用了两个方法,分别是startElement和endElement。

 阅读必读

比较难理解的是xml节点复杂关系的呈现,大概设计思路是定义三个map和一个int类型的下标值,三个map的作用是第1个map存储结果集第2个map记录元素下标对应的key第3map个记录下标key所属的元素对象。当startElement开始读取节点元素时将该元素的节点名称存储至第2个map并将该对象以该元素的节点名称存储至第三个map中,然后将int类型的下标值手动+1,最后当元素节点读取结束时开始组装格式,下面是代码呈现

package com.syasuo.xml;

import com.alibaba.fastjson.JSON;
import lombok.extern.slf4j.Slf4j;
import org.springframework.util.CollectionUtils;
import org.xml.sax.Attributes;
import org.xml.sax.SAXException;
import org.xml.sax.helpers.DefaultHandler;

import java.util.*;

/**
 * @author SYASUO
 * @date 2023/6/19 13:46
 */
@Slf4j
public class MyDefaultHandler extends DefaultHandler {
    
    //存储结果集
    private Map<String,Object> resultMap = new HashMap<>();
    
    //用下标标记key
    private Map<Integer,String> indexKeyMap = new HashMap<>();

    //下标标记的所属key的对象
    private Map<String,Map<String,Object>> indexKeyMapObj = new HashMap<>();
    
    //记录元素节点对应的下标,初始给0
    private int index = 0;
    
    @Override
    public void startDocument() throws SAXException {
        log.info("------------------------------XML读取开始------------------------------");
    }

    /**
     * 开始读取XML元素,每次记录下标对应的kay和该key对应的对象
     */
    @Override
    public void startElement(String uri, String localName, String qName, Attributes attributes) throws SAXException {
        Map<String,Object> node = new HashMap<>();
        for (int i = 0; i < attributes.getLength(); i++) {
            node.put(attributes.getQName(i),attributes.getValue(i));
        }
        indexKeyMap.put(index,qName);
        indexKeyMapObj.put(qName,node);
        index++;
    }

    /**
     * 元素节点读取结束时,由于index在startElement中执行了+1操作,
     * 因此获取对应节点的父级节点时需要先执行index-1操作得到当前节点下标,在当前节点下标位再次执行-1操作得到父级节点
     * 取到父级节点时需要判断父级包不包含该节点,如果包含就说明该节点是一个List集合,否则就作为一个单独的对象放入父级对象中
     * 最后给resultMap结果集对象赋值即可
     */
    @Override
    public void endElement(String uri, String localName, String qName) throws SAXException {
        Map<String,Object> curObj = indexKeyMapObj.get(qName);
        int j = --index;
        if(j > 0){
            j--;
            String qname = indexKeyMap.get(j);
            Map<String,Object> parent = indexKeyMapObj.get(qname);
            if(parent.containsKey(qName)){
                List<Map<String,Object>> list = new ArrayList<>();
                //System.out.println(parent.get(qName).getClass().getTypeName());
                if(parent.get(qName).getClass().getSimpleName().equals("HashMap")){
                    list.add((Map<String, Object>) parent.get(qName));
                }else{
                    list.addAll((Collection<? extends Map<String, Object>>) parent.get(qName));
                }
                //将当前节点对象加入当前对象集合
                list.add(curObj);
                parent.put(qName,list);
            }else{
                parent.put(qName,curObj);
            }
            resultMap = parent;
        }
    }

    @Override
    public void characters(char[] ch, int start, int length) throws SAXException {
      /*
        String element = new String(ch,start,length);
        log.info("该方法只有在【<ele>标签值</ele>】这种类型的标签下才能有效获取");
        */
    }

    /*
     * 结束文档时调用
     */
    @Override
    public void endDocument() throws SAXException {
        log.info("------------------------------XML读取结束------------------------------");
    }
    
    
    public Map<String,Object> getResultMap(){
        return resultMap;
    }
}

测试Main

注意:CprjInfo是xml对应格式的JavaBean,XML如何转JavaBean,可以看我这一篇

使用XJC将XML转换成JavaBean遇到的坑_辛丑年正月十五的博客-CSDN博客

package com.syasuo.xml;

import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONObject;
import com.syasuo.entity.CprjInfo;
import org.xml.sax.InputSource;
import org.xml.sax.SAXException;
import org.xml.sax.XMLReader;

import javax.xml.parsers.ParserConfigurationException;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
import java.io.File;
import java.io.IOException;
import java.util.Map;

/**
 * @author SYASUO
 * @date 2023/6/19 13:41
 */
public class Test {

    public static void main(String[] args) throws ParserConfigurationException, SAXException, IOException {
        Long startTime = System.currentTimeMillis();
        SAXParser parser = SAXParserFactory.newInstance().newSAXParser();
        MyDefaultHandler myDefaultHandler = new MyDefaultHandler();
        parser.parse(new File("D://root.xml"), myDefaultHandler);
        Map<String,Object> resultMap =  myDefaultHandler.getResultMap();
        //System.out.println(JSON.toJSONString(resultMap));
        CprjInfo cprjInfo = JSONObject.parseObject(JSON.toJSONString(resultMap),CprjInfo.class);
        System.out.println(JSON.toJSONString(cprjInfo));
        System.out.println(System.currentTimeMillis()-startTime);
    }
}

成功的截图,可以看见进度条多么小

 假如你待解析的xml有元素递归嵌套,可以看这一篇,支持大且复杂xml解析

【加强版】SAX解析XML返回对应格式的Map对象(解决元素递归嵌套)_辛丑年正月十五的博客-CSDN博客

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
SAX解析是一种基于事件驱动的XML解析方法。它通过逐行读取XML文档并触发相应的事件来解析XML数据。在SAX解析中,有三个核心步骤: 1. 获取XML解析器:可以通过Java原生API获取XML解析器。使用`javax.xml.parsers.SAXParserFactory`类获取解析器的实例,然后使用`factory.newSAXParser()`方法获取`SAXParser`对象,最后通过`saxParser.getXMLReader()`方法获取`XMLReader`对象。 2. 注册自定义解析器:在SAX解析中,需要注册一个自定义的事件处理器来处理解析过程中的事件。可以创建一个继承自`DefaultHandler`类的自定义解析器,并重写`startElement`、`endElement`和`characters`等方法来处理开始节点、结束节点和节点内容等事件。 3. 解析XML:通过调用`xmlReader.parse()`方法来解析XML文档。可以传递XML文档的输入流或文件路径作为参数。解析过程中,SAX解析器会将读取到的XML解析成事件,并传递给注册的自定义解析器进行处理。 以下是一个使用SAX解析解析XML的示例代码: ```java public class SaxReader { public static XMLReader getInstance() throws Exception { SAXParserFactory factory = SAXParserFactory.newInstance(); SAXParser saxParser = factory.newSAXParser(); XMLReader xmlReader = saxParser.getXMLReader(); return xmlReader; } public static void main(String\[\] args) throws Exception { XMLReader xmlReader = getInstance(); MyHandler myHandler = new MyHandler(); xmlReader.setContentHandler(myHandler); xmlReader.parse(SaxReader.class.getClassLoader().getResource("Book.xml").getFile()); List<Book> bookList = myHandler.getBookList(); System.out.println(bookList); } } ``` 在上述代码中,`MyHandler`是自定义的事件处理器,`xmlReader.setContentHandler(myHandler)`用于注册自定义解析器。`xmlReader.parse()`方法用于解析XML文档,其中`SaxReader.class.getClassLoader().getResource("Book.xml").getFile()`用于获取XML文件的路径。解析结果可以通过自定义解析器的方法获取。 希望以上信息对您有所帮助。 #### 引用[.reference_title] - *1* *2* [sax解析xml详解](https://blog.csdn.net/qq_41063182/article/details/103689891)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [SAX解析和生成XML文档](https://blog.csdn.net/weixin_32576389/article/details/114825517)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down28v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值