最近看我老婆经常加班,工作辛苦,实在于心不忍,于是就了解了一下她的工作内容。
原来她经常要花好几个小时,从数十个甚至数百个Excel文件里提取数据,整理成文档,而这些Excel都是一些根据模板文档填写内容的报告,也就是格式都相同的,只是每个内容不同而已。
这种批量重复的工作,人工效率很低,最适合程序来跑了。
于是,我就帮我老婆写了个小程序,顺便把过程记录下来,作为一个Java爬取Excel的入门教程,分享给大家。
起初,我使用的Java库是jxl,它一个比较常用的Excel处理库。但是我发现文件夹里虽然给的是格式文档,里面内容基本是一样的,但是由于被不同的人保存后,存在部分人把文档格式由xls改成了xlsx,而jxl比较古老,只支持xls文档的处理,出于对兼容性的考虑,我放弃了jxl,采用poi来处理这些文档。
net.sourceforge.jexcelapi
jxl
2.6
jxl2.6是一个比较稳定的版本,也是我常用的一个版本。下面是poi的版本,我起初就是随便百度的,用的3.15版本,但是发现和jdk10有一些不兼容的地方,后来又试了4.1.2最新的版本,但是神奇的是怎么也找不到要用的类。
几经周折,我最后选用了网上公认最稳定的版本3.9,不同的版本之间还是有很多差异化,以我的个人体验来说,都不是特别完善,比如3.15版本有获取全部分页的函数,3.9版本反而没有了,4.1.2又有了。不过这个不重要,可以自己重