一个简单且处理速度很快的Python csv转excel方法

最新推荐文章于 2025-04-09 14:15:04 发布

iCheer-xu

最新推荐文章于 2025-04-09 14:15:04 发布

阅读量4.6k

点赞数 2

文章标签： python pypy pandas excel csv

本文链接：https://blog.csdn.net/qq_36071963/article/details/120371058

版权

本文探讨了在Mac平台上高效转换大型CSV文件为Excel的方法。通过对比使用pandas和openpyxl库，发现直接逐行读取并写入的方式提高了处理速度。进一步采用pypy作为解释器显著提升了运行效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

因为业务需要，需要在Mac平台把csv转成excel，且excel在10万条到100万条之间。
如果在Windows下excel就能处理……但这是Mac。
最先用的方法是pandas里面的转excel，调用方法真简单，就是处理速度十分感人，我自己用的csv动不动十分钟起步，不知道其中经历了多少步的处理。

import pandas as pd
import datetime


def csv_to_xlsx_pd(sourcePath:str,savePath:str,encode='utf-8'):
    """输入文件路径、包含保存文件名的保存地址，然后调用pandas处理转为excel
    如果不需要可以把计时相关代码删除
    
    Args:
        sourcePath:str 来源文件路径
        savePath:str 保存文件路径，需要包含保存的文件名
        encode:str 编码格式，默认为utf-8
    """
    
    # print('开始处理%s' % sourcePath)
    # curr_time = datetime.datetime.now()

    csv = pd.read_csv(sourcePath, encoding=encode)
    csv.to_excel(savePath, sheet_name='sheet')

    # print('处理完毕')
    # curr_time2 = datetime.datetime.now()
    # print(curr_time2-curr_time)

为了提高处理效率，心想着直接用傻办法读取csv然后一条条写入excel里效率会高点么……结果真高一点……
用的是openpyxl包处理成xlsx格式，因为这个格式上限比xls大，最多支持1048576行。如果没有安装openpyxl，需要先pip装一下。

$ pip install pillow

from openpyxl import Workbook
import datetime


def csv_to_xlsx_pd(sourcePath:str,savePath:str,encode='utf-8',splitSymbol=','):
    """将csv或者tsv，转为excel（.xlsx格式）
    如果不需要可以把计时相关代码删除

    Args:
        sourcePath:str 来源文件路径
        savePath:str 保存文件路径，需要包含保存的文件名，文件名需要是xlsx格式的
        encode='utf-8' 默认编码，可以改为需要的编码如gbk
        splitSymbol=',' 默认分隔符，如果csv不是用小写逗号分隔的话，需要改成对应的分隔符
    """
    print('开始处理%s' % sourcePath)
    curr_time = datetime.datetime.now()
    print(curr_time)

    f = open(sourcePath, 'r', encoding=encode)
    # 创建一个workbook 设置编码
    workbook = Workbook()
    # 创建一个worksheet
    worksheet = workbook.active
    workbook.title = 'sheet'

    # 支持处理逗号分隔的csv或tab分隔的tsv格式
    if splitSymbol == ',':
        if sourcePath.find('.tsv') > -1:
            splitSymbol = '\t'

    fc = f.readlines()
    for i in range(len(fc)):
        fieldList = fc[i].split(splitSymbol)
        worksheet.append(fieldList)
    workbook.save(savePath)

    print('处理完毕')
    curr_time2 = datetime.datetime.now()
    print(curr_time2-curr_time)

source='/Users/xxx/Downloads/filename.tsv'
save='/Users/xxx/Desktop/filename.xlsx'
csv_to_xlsx_pd(sourcePath=source,savePath=save,encode='gbk')