java使用poi+python的pandas实现导入excel表格中的数据到数据库

说好的幸福呢.

已于 2023-06-21 11:50:41 修改

阅读量931

点赞数

文章标签： pandas excel 数据分析 java spring boot

于 2023-06-21 11:47:26 首次发布

本文链接：https://blog.csdn.net/m0_59505149/article/details/131323092

版权

本文介绍了如何使用Python的pandas库分割大型Excel文件为多个小文件，然后利用Java的poi库解析并导入数据到数据库。通过分割文件避免了内存溢出问题，Java代码中注意了从第二行、第二列开始解析，处理了科学计数法的列，以确保数据准确导入。

摘要由CSDN通过智能技术生成

现在我这边有1月到12月的数据，一个excel文件最多大概50万条，需要将这些excel表格中的数据解析之后保存到数据库中，首先想到的是将excel文件转成csv格式再去解析，不过由于数据量太多，可能会因为分隔符导致解析数据的时候出现问题，大量的数据很难确保某条数据中不会出现分隔符，所以还是直接解析excel表格会比较好。

之前使用java的XSSFWorkbook解析大型Excel文件时，遇到内存不足或性能问题。要么就是直接报错要么就是解析特慢，这是因为XSSFWorkbook将整个Excel文档加载到内存中，如果文件过大，会导致内存溢出。

一. python使用pandas分割文件

为了解决这个问题，我这边直接通过python的pandas将一个大文件分割成多个小的文件，分割后的每个文件5000条数据，下面是python分割文件代码：

import pandas as pd

for i in range(1, 13):
    # 读取文件
    string_i = str(i)
    file = pd.read_excel('D:/Desktop/22年数据/历史数据'+string_i+'月.xlsx')
    print('执行解析：===> D:/Desktop/22年数据/历史数据'+string_i+'月.xlsx')

    # 获取总记录数和总文件数
    total_records = len(file)
    # 如果一共有10002条，5000一条分一个文件，那么最后的两条也需要单独分一个文件，所以一共是3个文件
    total_files = total_records // 5000 + 1

    # 打印
    print(total_records)
    print(total_files)

    # 分割数据并保存为多个 Excel 文件
    for j in range(total_files):
        start_index = j * 5000
        end_index = (j + 1) * 5000
        sub_df = file[start_index:end_index]
        string_j = str(j+1)
        sub_df.to_excel(f'D:/Desktop/files/output_'+string_i+'月_'+string_j+'个.xlsx', index=False)

解析完成之后它会将分割后的文件保存在D:/Desktop/files中，并以我们规定的格式命名,规范命名格式也是为了我们后面java中方便读取它。

二. pom.xml导入poi

<!-- Apache POI Excel库 -->
        <dependency>
            <groupId>org.apache.poi</groupId>
            <artifactId>poi-ooxml</artifactId>
            <version>4.1.2</version>
        &l

最低0.47元/天解锁文章

说好的幸福呢.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
java使用poi+python的pandas实现导入excel表格中的数据到数据库

1.解析行的时候从第二行开始解析，因为第一行是表头不需要解析2.解析列的时候也是从第二列开始解析，第一列的id不需要解析，我们插入的时候如果是mysql的话可以设置自增，如果是oracle可以通过触发器在插入数据时后生成我们需要的id3.对于excel表格中使用科学计数法的列，我们需要在解析的时候进行处理，这里我们处理了number列，以免插入数据库中的数据是2E+08这种格式的。
复制链接

扫一扫