writeAttribute(“hidden”, “true”);
}
if (row.isFormatted()) {
writeAttribute(“s”, Integer.toString(row.getRowStyleIndex()));
writeAttribute(“customFormat”, “1”);
}
if (row.getOutlineLevel() != 0) {
writeAttribute(“outlineLevel”, Integer.toString(row.getOutlineLevel()));
}
if(row.getHidden() != null) {
writeAttribute(“hidden”, row.getHidden() ? “1” : “0”);
}
if(row.getCollapsed() != null) {
writeAttribute(“collapsed”, row.getCollapsed() ? “1” : “0”);
}
_out.write(“>\n”);
this._rownum = rownum;
}
void endRow() throws IOException {
_out.write(“</row>\n”);
}
public void writeCell(int columnIndex, Cell cell) throws IOException {
if (cell == null) {
return;
}
String ref = new CellReference(_rownum, columnIndex).formatAsString();
_out.write(“<c”);
writeAttribute(“r”, ref);
CellStyle cellStyle = cell.getCellStyle();
if (cellStyle.getIndex() != 0) {
// need to convert the short to unsigned short as the indexes can be up to 64k
// ideally we would use int for this index, but that would need changes to some more
// APIs
writeAttribute(“s”, Integer.toString(cellStyle.getIndex() & 0xffff));
}
CellType cellType = cell.getCellTypeEnum();
switch (cellType) {
case BLANK: {
_out.write(‘>’);
break;
}
case FORMULA: {
_out.write(“><f>”);
outputQuotedString(cell.getCellFormula());
_out.write(“</f>”);
switch (cell.getCachedFormulaResultTypeEnum()) {
case NUMERIC:
double nval = cell.getNumericCellValue();
if (!Double.isNaN(nval)) {
_out.write(“<v>”);
_out.write(Double.toString(nval));
_out.write(“</v>”);
}
break;
default:
break;
}
break;
}
case STRING: {
if (_sharedStringSource != null) {
XSSFRichTextString rt = new XSSFRichTextString(cell.getStringCellValue());
int sRef = _sharedStringSource.addEntry(rt.getCTRst());
writeAttribute(“t”, STCellType.S.toString());
_out.write(“><v>”);
_out.write(String.valueOf(sRef));
_out.write(“</v>”);
} else {
writeAttribute(“t”, “inlineStr”);
_out.write(“><is><t”);
if (hasLeadingTrailingSpaces(cell.getStringCellValue())) {
writeAttribute(“xml:space”, “preserve”);
}
_out.write(“>”);
outputQuotedString(cell.getStringCellValue());
_out.write(“</t></is>”);
}
break;
}
case NUMERIC: {
writeAttribute(“t”, “n”);
_out.write(“><v>”);
_out.write(Double.toString(cell.getNumericCellValue()));
_out.write(“</v>”);
break;
}
case BOOLEAN: {
writeAttribute(“t”, “b”);
_out.write(“><v>”);
_out.write(cell.getBooleanCellValue() ? “1” : “0”);
_out.write(“</v>”);
break;
}
case ERROR: {
FormulaError error = FormulaError.forInt(cell.getErrorCellValue());
writeAttribute(“t”, “e”);
_out.write(“><v>”);
_out.write(error.getString());
_out.write(“</v>”);
break;
}
default: {
throw new IllegalStateException("Invalid cell type: " + cellType);
}
}
_out.write(“</c>”);
}
可以看到临时文件里内容跟xlsx的文件格式是保持一致的。
测试
==
本地测试使用SXSSFWorkbook导出30w行 * 10列内存使用情况
可以看出内存有被回收的情况,比较平稳。
XLS
===
POI没有像XLSX那样对XLS的写做出性能的优化,原因是:
-
官方认为XLS的不像XLSX那样占内存
-
XLS一个Sheet最多也只能有65535行数据
导入优化
====
POI对导入分为3种模式,用户模式User Model,事件模式Event Model,还有Event User Model。
- 用户模式(User Model)就类似于dom方式的解析,是一种high level api,给人快速、方便开发用的。缺点是一次性将文件读入内存,构建一颗Dom树。并且在POI对Excel的抽象中,每一行,每一个单元格都是一个对象。当文件大,数据量多的时候对内存的占用可想而知。
用户模式就是类似用 WorkbookFactory.create(inputStream),poi 会把整个文件一次性解析,生成全部的Sheet,Row,Cell以及对象,如果导入文件数据量大的话,也很可能会导致OOM。本地测试用户模式读取XLSX文件,数据量10w行 * 50列,内存使用如下
-
事件模式(Event Model)就是SAX解析。Event Model使用的方式是边读取边解析,并且不会将这些数据封装成Row,Cell这样的对象。而都只是普通的数字或者是字符串。并且这些解析出来的对象是不需要一直驻留在内存中,而是解析完使用后就可以回收。所以相比于User Model,Event Model更节省内存,效率也更。但是作为代价,相比User Model功能更少,门槛也要高一些。我们需要去学习Excel存储数据的各个Xml中每个标签,标签中的属性的含义,然后对解析代码进行设计。
-
User Event Model也是采用流式解析,但是不同于Event Model,POI基于Event Model为我们封装了一层。我们不再面对Element的事件编程,而是面向StartRow,EndRow,Cell等事件编程。而提供的数据,也不再像之前是原始数据,而是全部格式化好,方便开发者开箱即用。大大简化了我们的开发效率。
XLSX
====
POI对XLSX支持Event Model和Event User Model
XLSX的Event Model
================
使用
==
最直接,权威就是参考官网例子
简单来说就是需要继承DefaultHandler,覆盖其startElement,endElement方法。然后方法里获取你想要的数据。
原理
==
DefaultHandler相信熟悉的人都知道,这是JDK自带的对XML的SAX解析用到处理类,POI在进行SAX解析时,把读取到每个XML的元素时则会回调这两个方法,然后我们就可以获取到想用的数据了。
我们回忆一下上面说到的XLSX存储格式中sheet存储数据的格式。
再看看官方例子中的解析过程
|
public void startElement(String uri, String localName, String name,
Attributes attributes) throws SAXException {
//c代表是一个单元格cell,判断c这个xml元素里面属性attribute t
// c => cell
if(name.equals(“c”)) {
// Print the cell reference
System.out.print(attributes.getValue(“r”) + " - ");
// Figure out if the value is an index in the SST
String cellType = attributes.getValue(“t”);
nextIsString = cellType != null && cellType.equals(“s”);
inlineStr = cellType != null && cellType.equals(“inlineStr”);
}
// Clear contents cache
lastContents = “”;
}
@Override
public void endElement(String uri, String localName, String name)
throws SAXException {
// Process the last contents as required.
// Do now, as characters() may be called more than once
if(nextIsString) {
Integer idx = Integer.valueOf(lastContents);
lastContents = lruCache.get(idx);
if (lastContents == null && !lruCache.containsKey(idx)) {
lastContents = new XSSFRichTextString(sst.getEntryAt(idx)).toString();
lruCache.put(idx, lastContents);
}
nextIsString = false;
}
//v 元素代表这个cell的内容
// v => contents of a cell
// Output after we’ve seen the string contents
if(name.equals(“v”) || (inlineStr && name.equals(“c”))) {
System.out.println(lastContents);
}
}
可以看出你需要对XLSX的XML格式清楚,才能获取到你想要的东西。
XLSX的Event User Model
=====================
使用
==
官方例子
简单来说就是继承
XSSFSheetXMLHandler.SheetContentsHandler,覆盖其startRow,endRow,cell,endSheet 等方法。POI每开始读行,结束读行,读取一个cell,结束读取一个sheet时回调的方法。从方法名上看Event User Model有更好的用户体验。
原理
==
其实Event User Model也是 Event Model的封装,在XSSFSheetXMLHandler(其实也是一个DefaultHandler来的)中持有一个SheetContentsHandler,在其startElement,endElement方法中会调用SheetContentsHandler的startRow,endRow,cell,endSheet等方法。
我们看看XSSFSheetXMLHandler的startElement和endElement方法
|
Attributes attributes) throws SAXException {
if (uri != null && ! uri.equals(NS_SPREADSHEETML)) {
return;
}
if (isTextTag(localName)) {
vIsOpen = true;
// Clear contents cache
value.setLength(0);
} else if (“is”.equals(localName)) {
// Inline string outer tag
isIsOpen = true;
} else if (“f”.equals(localName)) {
// Clear contents cache
formula.setLength(0);
// Mark us as being a formula if not already
if(nextDataType == xssfDataType.NUMBER) {
nextDataType = xssfDataType.FORMULA;
}
// Decide where to get the formula string from
String type = attributes.getValue(“t”);
if(type != null && type.equals(“shared”)) {
// Is it the one that defines the shared, or uses it?
String ref = attributes.getValue(“ref”);
String si = attributes.getValue(“si”);
if(ref != null) {
// This one defines it
// TODO Save it somewhere
fIsOpen = true;
} else {
// This one uses a shared formula
// TODO Retrieve the shared formula and tweak it to
// match the current cell
if(formulasNotResults) {
logger.log(POILogger.WARN, “shared formulas not yet supported!”);
} /*else {
// It’s a shared formula, so we can’t get at the formula string yet
// However, they don’t care about the formula string, so that’s ok!
}*/
}
} else {
fIsOpen = true;
}
}
else if(“oddHeader”.equals(localName) || “evenHeader”.equals(localName) ||
“firstHeader”.equals(localName) || “firstFooter”.equals(localName) ||
“oddFooter”.equals(localName) || “evenFooter”.equals(localName)) {
hfIsOpen = true;
// Clear contents cache
headerFooter.setLength(0);
}
else if(“row”.equals(localName)) {
String rowNumStr = attributes.getValue(“r”);
if(rowNumStr != null) {
rowNum = Integer.parseInt(rowNumStr) - 1;
} else {
rowNum = nextRowNum;
}
//回调了SheetContentsHandler的startRow方法
output.startRow(rowNum);
}
// c => cell
else if (“c”.equals(localName)) {
// Set up defaults.
this.nextDataType = xssfDataType.NUMBER;
this.formatIndex = -1;
this.formatString = null;
cellRef = attributes.getValue(“r”);
String cellType = attributes.getValue(“t”);
String cellStyleStr = attributes.getValue(“s”);
if (“b”.equals(cellType))
nextDataType = xssfDataType.BOOLEAN;
else if (“e”.equals(cellType))
nextDataType = xssfDataType.ERROR;
else if (“inlineStr”.equals(cellType))
nextDataType = xssfDataType.INLINE_STRING;
else if (“s”.equals(cellType))
nextDataType = xssfDataType.SST_STRING;
else if (“str”.equals(cellType))
nextDataType = xssfDataType.FORMULA;
else {
// Number, but almost certainly with a special style or format
XSSFCellStyle style = null;
if (stylesTable != null) {
if (cellStyleStr != null) {
int styleIndex = Integer.parseInt(cellStyleStr);
style = stylesTable.getStyleAt(styleIndex);
} else if (stylesTable.getNumCellStyles() > 0) {
style = stylesTable.getStyleAt(0);
}
}
if (style != null) {
this.formatIndex = style.getDataFormat();
this.formatString = style.getDataFormatString();
if (this.formatString == null)
this.formatString = BuiltinFormats.getBuiltinFormat(this.formatIndex);
}
}
}
}
|
public void endElement(String uri, String localName, String qName)
throws SAXException {
if (uri != null && ! uri.equals(NS_SPREADSHEETML)) {
return;
}
小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数初中级Java工程师,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年最新Java开发全套学习资料》送给大家,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频
如果你觉得这些内容对你有帮助,可以添加下面V无偿领取!(备注Java)
最后
为什么我不完全主张自学?
①平台上的大牛基本上都有很多年的工作经验了,你有没有想过之前行业的门槛是什么样的,现在行业门槛是什么样的?以前企业对于程序员能力要求没有这么高,甚至十多年前你只要会写个“Hello World”,你都可以入门这个行业,所以以前要入门是完全可以入门的。
②现在也有一些优秀的年轻大牛,他们或许也是自学成才,但是他们一定是具备优秀的学习能力,优秀的自我管理能力(时间管理,静心坚持等方面)以及善于发现问题并总结问题。
如果说你认为你的目标十分明确,能做到第②点所说的几个点,以目前的市场来看,你才真正的适合去自学。
除此之外,对于绝大部分人来说,报班一定是最好的一种快速成长的方式。但是有个问题,现在市场上的培训机构质量参差不齐,如果你没有找准一个好的培训班,完全是浪费精力,时间以及金钱,这个需要自己去甄别选择。
我个人建议线上比线下的性价比更高,线下培训价格基本上没2W是下不来的,线上教育现在比较成熟了,此次疫情期间,学生基本上都感受过线上的学习模式。相比线下而言,线上的优势以我的了解主要是以下几个方面:
①价格:线上的价格基本上是线下的一半;
②老师:相对而言线上教育的师资力量比线下更强大也更加丰富,资源更好协调;
③时间:学习时间相对而言更自由,不用裸辞学习,适合边学边工作,降低生活压力;
④课程:从课程内容来说,确实要比线下讲的更加深入。
应该学哪些技术才能达到企业的要求?(下图总结)
完全主张自学?
①**平台上的大牛基本上都有很多年的工作经验了,你有没有想过之前行业的门槛是什么样的,现在行业门槛是什么样的?以前企业对于程序员能力要求没有这么高,甚至十多年前你只要会写个“Hello World”,你都可以入门这个行业,所以以前要入门是完全可以入门的。
②现在也有一些优秀的年轻大牛,他们或许也是自学成才,但是他们一定是具备优秀的学习能力,优秀的自我管理能力(时间管理,静心坚持等方面)以及善于发现问题并总结问题。
如果说你认为你的目标十分明确,能做到第②点所说的几个点,以目前的市场来看,你才真正的适合去自学。
除此之外,对于绝大部分人来说,报班一定是最好的一种快速成长的方式。但是有个问题,现在市场上的培训机构质量参差不齐,如果你没有找准一个好的培训班,完全是浪费精力,时间以及金钱,这个需要自己去甄别选择。
我个人建议线上比线下的性价比更高,线下培训价格基本上没2W是下不来的,线上教育现在比较成熟了,此次疫情期间,学生基本上都感受过线上的学习模式。相比线下而言,线上的优势以我的了解主要是以下几个方面:
①价格:线上的价格基本上是线下的一半;
②老师:相对而言线上教育的师资力量比线下更强大也更加丰富,资源更好协调;
③时间:学习时间相对而言更自由,不用裸辞学习,适合边学边工作,降低生活压力;
④课程:从课程内容来说,确实要比线下讲的更加深入。
应该学哪些技术才能达到企业的要求?(下图总结)
[外链图片转存中…(img-SAaJokLb-1710434804798)]
[外链图片转存中…(img-J2QDiaTH-1710434804799)]