Java读取Excel并解析文本(并格式化输出)

很好的文章,要留存;
相关技术jar包;
这里写图片描述
分析
解析Excel首先就要解析Excel的结构.然后用面向对象的思想分析一下 :
这里写图片描述
这是一个excel文件.下面我们就来分析一下如果让你写这个poi框架,那么你会怎么设计.
1. 首先要有一个对象表示这整个Excel文件.
2. 可是这个excel文件中有好多页.Sheet1, Sheet2等等,所以我们还需要一个对象表示页.
3. 在页中,有行,所以还需要一个对象表示行.
4. 在行中,最后细分到格cell.
5. 格cell中数据还有好多类型.有字符串,数字,时间等等.

POI中的对象与excel对象的对应
excel文件就有多种类型了.后缀有 xls 与 xlsx :
这里写图片描述
所以对于不同类型的文件,就需要使用不同的poi中的对象了.
1. 如果你要解析的是xls文件 :

public static List<List<String>> readXls(String filePath) throws Exception {
        InputStream is = new FileInputStream(filePath);
        HSSFWorkbook hssfWorkbook = new HSSFWorkbook(is);//HSSFWorkbook表示整个Excel
        List<List<String>> result = new ArrayList<>();
        //循环每一页,并处理当前的循环页
        for (int numSheet = 0; numSheet < hssfWorkbook.getNumberOfSheets(); numSheet++) {
            HSSFSheet hssfSheet = hssfWorkbook.getSheetAt(numSheet);//HSSFSheet表示某一页
            if (hssfSheet == null) {
                continue;
            }
            //处理当前页,循环处理每一行的数据
            for (int rowNum = 1; rowNum <= hssfSheet.getLastRowNum(); rowNum++) {
                HSSFRow hssfRow = hssfSheet.getRow(rowNum);//HSSFRow表示每一行的数据
                int minColIx = hssfRow.getFirstCellNum();
                int maxColIx = hssfRow.getLastCellNum();
                List<String> rowList = new ArrayList<>();
                //遍历该行,并获取每一个cell的数据
                for (int colIx = minColIx; colIx < maxColIx; colIx++) {
                    HSSFCell hssfCell = hssfRow.getCell(colIx);
                    if (hssfCell == null) {
                        continue;
                    }
                    rowList.add(ExcelUtils.getStringVal(hssfCell));
                }
                result.add(rowList);
            }

        }
        return result;
    }

从代码不难发现,这里的处理逻辑是
1>. 先用inputstream获取excel文件的io流
2>. 然后创建一个内存中的excel文件HSSFWorkbook类型对象.这个对象表示了整个excel文件.
3>. 对这个excel文件的每页做循环处理
4>. 对每页中的每行做循环处理.
5>. 对每行中的每个单元格做做处理,获取这个单元格的值.
6>. 把这行的结果添加到一个List数组中.
7>. 把每行的结果添加到最后的总结果中.
8>. 解析完以后就获取了一个List< List < String > > 类型的对象了.
2. 如果你要处理xlsx类型的文件则 :

/**
     * @Author: Lee
     * @Time:2017/7/24
     * @Description:读xlsx类型的文件
     * @修改人:
     * @修改时间:
     */
    public static List<List<String>> readXlsx(String filePath) throws Exception {
        InputStream is = new FileInputStream(filePath);
        XSSFWorkbook xssfWorkbook = new XSSFWorkbook(is);
        List<List<String>> result = new ArrayList<>();
        //循环每一页,并处理当前的循环页
        for (Sheet sheet : xssfWorkbook) {
            if (sheet == null) {
                continue;
            }
            for (int rowNum = 1; rowNum <= sheet.getLastRowNum(); rowNum++) {
                Row row = sheet.getRow(rowNum);//Row表示每一行的数据
                int minColIx = row.getFirstCellNum();
                int maxColIx = row.getLastCellNum();
                List<String> rowList = new ArrayList<>();
                //遍历该行,并获取每一个cell的数据
                for (int colIx = minColIx; colIx < maxColIx; colIx++) {
                    Cell cell = row.getCell(colIx);
                    if (cell == null) {
                        continue;
                    }
                    rowList.add(cell.toString());
                }
                result.add(rowList);
            }
        }
        return result;
    }

存在的问题
其实有时候我们希望得到的数据就是excel中的数据,可是最后发现结果不理想
如果你的excel中的数据是数字,你会发现Java中对应的变成了科学计数法的.
所以在获取值的时候就要做一些特殊处理.
这样就能保证获取的值是我想要的值.
网上的做法是对于数值类型的数据格式化,获取自己想要的结果.
其实也没有那么麻烦.我在做的时候突然想到了一种处理解决方案.供参考
我们看一下poi中对于的toString()方法 :
这里写图片描述
该方法是poi的方法,从源码中我们可以发现,该处理流程是
1. 获取单元格的类型
2. 根据类型格式化数据并输出.这不一下子就造成了很多不是我们想要的.
所以我们就要改造一下这个方法例如这样 :

private static String getStringVal(HSSFCell cell) {
        switch (cell.getCellType()) {
            case Cell.CELL_TYPE_BOOLEAN:
                return cell.getBooleanCellValue() ? "true" : "false";
            case Cell.CELL_TYPE_FORMULA:
                return cell.getCellFormula();
            case Cell.CELL_TYPE_NUMERIC:
                cell.setCellType(Cell.CELL_TYPE_STRING);
                return cell.getStringCellValue();
            case Cell.CELL_TYPE_STRING:
                return cell.getStringCellValue();
            default:
                return "";
        }
    }

我的做法是这样的
1. 对于不熟悉的类型,或者为空则返回”” 控制串.
2.如果是数字,则修改单元格类型为String,然后返回String.这样就保证数字不被格式化了.
3. 虽然不知道这么做有什么后果,可是成功了.
这里写图片描述

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值