大数据最新高效读取大数据量excle2007文件的解决方案(1),面试总结

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

1.环境

基于poi3.12版本开发

2.原理

excle数据主要基于xml保存,而poi则是通过操作xml来对excle文件进行操作。在进行读取时有Event modelUser model两种模式,顾名思义,前者基于事件读取,每读取一个xml元素(excle数据)就调用用户自定义的处理逻辑对数据进行处理。而后者在事件模式的基础上进行了封装,将所有数据写入内存中构造出对应的sheetrowcell模型,这种方式更便于用户操作,但性能较差,而且在excle文件较大时会内存溢出。

3.实现

poi自带一个基于Event model的读取器XSSFReader和对应的xml解析类XSSFSheetXMLHandler,但功能非常简陋,我们主要基于这两个类进行开发,首先扩展XSSFSheetXMLHandler类,增加一个数据读取完毕的回调。

public class LocalXSSFSheetXmlHandler extends XSSFSheetXMLHandler {

public LocalXSSFSheetXmlHandler(StylesTable styles, CommentsTable comments, ReadOnlySharedStringsTable strings, SheetContentsHandler sheetContentsHandler, DataFormatter dataFormatter, boolean formulasNotResults) {

super(styles, comments, strings, sheetContentsHandler, dataFormatter, formulasNotResults);

}

public LocalXSSFSheetXmlHandler(StylesTable styles, ReadOnlySharedStringsTable strings, SheetContentsHandler sheetContentsHandler, DataFormatter dataFormatter, boolean formulasNotResults) {

super(styles, strings, sheetContentsHandler, dataFormatter, formulasNotResults);

}

public LocalXSSFSheetXmlHandler(StylesTable styles, ReadOnlySharedStringsTable strings, SheetContentsHandler sheetContentsHandler, boolean formulasNotResults) {

super(styles, strings, sheetContentsHandler, formulasNotResults);

}

private Procedure procedure;

public LocalXSSFSheetXmlHandler handleEnd(Procedure procedure){

this.procedure = procedure;

return this;

}

public void endDocument ()

throws SAXException

{

procedure.run();

}

}

package com.apex.bss.mod.util.excle;

/**

  • Created by Feng

*/

public interface Procedure {

void run();

}

我们扩展了XSSFSheetXMLHandler类,并且重写了endDocument方法,在原本的类中,该方法没有任何操作,在扩展类中,我们调用Procedure.run方法来处理excle读取完毕时的业务逻辑。

poi自带的事件处理接口是XSSFSheetXMLHandler.SheetContentsHandler,代码如下

public interface SheetContentsHandler {

void startRow(int var1);

void endRow(int var1);

void cell(String var1, String var2, XSSFComment var3);

void headerFooter(String var1, boolean var2, String var3);

}

可以看到数据是基于cell被处理的,我们要在startRowendRow方法中自己构建行数据

public class SheetHandler implements XSSFSheetXMLHandler.SheetContentsHandler,Procedure {

protected List row = new LinkedList<>();

private ExcleHandler excleHandler;

private int preIndex = 1;

public SheetHandler(ExcleHandler excleHandler){

this.excleHandler = excleHandler;

}

@Override

public void run() {

excleHandler.over();

}

@Override

public void startRow(int i) {

row.clear();

}

@Override

public void endRow(int i) {

excleHandler.handleRow(row,i);

}

@Override

public void cell(String cellReference, String formattedValue, XSSFComment comment) {

int index = excleCelNumToIndex(cellReference);

if(index - preIndex > 1){

for(int i = 0;i < index - preIndex - 1;i++){

row.add(“”);

}

}

row.add(formattedValue);

preIndex = index;

}

@Override

public void headerFooter(String s, boolean b, String s1) {

}

private int excleCelNumToIndex(String celNum){

int num = 0;

int result = 0;

celNum = Pattern.compile(“[\d]”).matcher(celNum).replaceAll(“”);

int length = celNum.length();

for(int i = 0; i < length; i++) {

char ch = celNum.charAt(length - i - 1);

num = (int)(ch - ‘A’ + 1) ;

num *= Math.pow(26, i);

result += num;

}

return result;

}

}

实现了一个事件处理接口,将数据封装成行数据,并且将具体的处理逻辑委托给ExcleHandler接口,此接口基于行来处理excle数据

public interface ExcleHandler {

public void handleRow(Object row, int rowNumber);

public void over();

}

需要注意的是,poi提供给我们的读取工具会跳过某些没有编辑过的单元格,我们需要在构建行的时候自己补全缺失的数据

然后自定义一个ExcleReader用于读取excle

package com.apex.bss.mod.util.excle;

import org.apache.poi.openxml4j.exceptions.InvalidFormatException;

import org.apache.poi.openxml4j.opc.OPCPackage;

import org.apache.poi.openxml4j.opc.PackageAccess;

import org.apache.poi.ss.usermodel.DataFormatter;

import org.apache.poi.util.SAXHelper;

import org.apache.poi.xssf.eventusermodel.ReadOnlySharedStringsTable;

import org.apache.poi.xssf.eventusermodel.XSSFReader;

import org.apache.poi.xssf.eventusermodel.XSSFSheetXMLHandler;

import org.apache.poi.xssf.model.CommentsTable;

import org.apache.poi.xssf.model.StylesTable;

import org.apache.poi.xssf.usermodel.XSSFComment;

import org.xml.sax.InputSource;

import org.xml.sax.SAXException;

import org.xml.sax.XMLReader;

import javax.xml.parsers.ParserConfigurationException;

import java.io.IOException;

import java.io.InputStream;

import java.util.LinkedList;

import java.util.List;

import java.util.regex.Pattern;

/**

  • Created by Feng

*/

public class EventExcleReader {

private OPCPackage opcPackage;

private SheetHandler handler;

private ExcleTypeEnum excleTypeEnum;

public EventExcleReader(String filename, ExcleTypeEnum excleType, ExcleHandler handler) throws IllegalAccessException, InvalidFormatException {

if(excleType == ExcleTypeEnum.XLS){

throw new IllegalAccessException(“暂不支持XLS文件”);

}

opcPackage = OPCPackage.open(filename, PackageAccess.READ);

this.handler = new SheetHandler(handler);

}

public EventExcleReader(InputStream inputStream, ExcleTypeEnum excleType, ExcleHandler handler) throws IllegalAccessException, InvalidFormatException, IOException {

if(excleType == ExcleTypeEnum.XLS){

throw new IllegalAccessException(“暂不支持XLS文件”);

}

opcPackage = OPCPackage.open(inputStream);

this.handler = new SheetHandler(handler);

}

public void read(){

InputStream sheetInputStream = null;

try {

XSSFReader xssfReader = new XSSFReader(opcPackage);

StylesTable styles = xssfReader.getStylesTable();

ReadOnlySharedStringsTable strings = new ReadOnlySharedStringsTable(opcPackage);

sheetInputStream = xssfReader.getSheetsData().next();

processSheet(styles, strings, sheetInputStream);

} catch (Exception e) {

throw new RuntimeException(e.getMessage(), e);

}finally {

if(sheetInputStream != null){

try {

sheetInputStream.close();

} catch (IOException e) {

throw new RuntimeException(e.getMessage(), e);

}

}

if(opcPackage != null){

try {

opcPackage.close();

} catch (IOException e) {

throw new RuntimeException(e.getMessage(), e);

}

}

}

}

private void processSheet(StylesTable styles, ReadOnlySharedStringsTable strings, InputStream sheetInputStream) throws SAXException, ParserConfigurationException, IOException{

XMLReader sheetParser = SAXHelper.newXMLReader();

sheetParser.setContentHandler(new LocalXSSFSheetXmlHandler(styles, strings, handler, false).handleEnd(handler));

sheetParser.parse(new InputSource(sheetInputStream));

}

}

然后根据具体业务实现ExcleHandler接口处理业务逻辑即可,这里我们还可以进一步对其进行封装实现数据的分段处理

public class ExcleUtil {

public static void readExcleByReduce(InputStream inputStream, int reduce, ExcleTypeEnum excleType, BiConsumer<LinkedList<LinkedList>,LinkedList> consumer) throws IllegalAccessException, IOException, InvalidFormatException {

new EventExcleReader(inputStream, excleType, new ReduceExcleHandler(consumer).reduceBy(reduce)).read();

}

public static void readExcle(InputStream inputStream,ExcleTypeEnum excleType, BiConsumer<LinkedList<LinkedList>,LinkedList> consumer) throws IllegalAccessException, IOException, InvalidFormatException {

new EventExcleReader(inputStream, excleType, new ReduceExcleHandler(consumer)).read();

}

/**

  • 分段读取类

*/

private static class ReduceExcleHandler implements ExcleHandler{

private int reduce = 1;

BiConsumer<LinkedList<LinkedList>,LinkedList> consumer;

private LinkedList<LinkedList> datas = new LinkedList<>();

private LinkedList head;

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

nt reduce = 1;

BiConsumer<LinkedList<LinkedList>,LinkedList> consumer;

private LinkedList<LinkedList> datas = new LinkedList<>();

private LinkedList head;

[外链图片转存中…(img-YnyH7XN9-1715780131545)]
[外链图片转存中…(img-YueI249V-1715780131545)]

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值