在数据分析业务中,经常要把Excel文件数据结构化解析以后再进行计算或导入关系数据库,但许多Excel文件的格式并不规整,而且文件结构也多种多样,导致编程进行结构化的工作量会比较大,而且很难通用,每次都要针对文件格式进行分析后再进行开发。
先来看个简单格式的例子,现有sales.xlsx文件,如下:
ORDERID | CLIENT | SELLERID | AMOUNT | ORDERDATE |
1 | LFRP | 12 | 9268 | 2020-12-07 |
2 | YG | 10 | 3458 | 2020-12-07 |
3 | OHY | 3 | 10298 | 2020-12-07 |
4 | ANZSW | 12 | 7662 | 2020-12-07 |
5 | QMTP | 6 | 7947 | 2020-12-07 |
现有数据库中的销售数据表(sales),对应的表结构为:
字段名 | 类型 |
ORDERID | int |
CLIENT | varchar(10) |
SELLERID | smallint |
AMOUNT | double |