2019【算法】【旷视科技】【面经】Python超大文件排序（按自定义关键字）

最新推荐文章于 2021-06-01 11:28:41 发布

心晴sky向北

最新推荐文章于 2021-06-01 11:28:41 发布

阅读量1.1k

点赞数

分类专栏：笔试面试

本文链接：https://blog.csdn.net/qq_26271435/article/details/89509551

版权

本文介绍了如何处理超大文件排序问题，通过使用pandas进行文件切割、小文件按自定义关键字排序，最后归并成大排序文件。详细步骤包括利用pandas对大文件进行切割，然后对生成的小文件依据特定关键字进行排序，最后将排序后的文件进行合并。

摘要由CSDN通过智能技术生成

超大文件排序，主要步骤为：切割成小文件，小文件各自排序，归并为大排序文件。

一、pandas切割超大文件：

import time
import pandas as pd
from tqdm import tqdm
i = 0

def reader_pandas(file, sep='\t', chunkSize=5000000, patitions=21, header=None):
    #file：文件名；
    #sep：读入时按此分隔符分割
    #chunkSize：切割后每个小文件的大小
    #patitions：进度条大小
    reader = pd.read_csv(file, iterator=True)
    chunks = []
    i = 0
    with tqdm(range(patitions), 'Reading ...') as t:
        for _ in t:
            try:
                chunk = reader.get_chunk(chunkSize)
                i += 1
                chunk.to_csv('sorted' + str(i) + '.csv', index=False, header=None)
#                chunks.append(chunk)
            except StopIteration:
                break
            
#    return pd.concat(chunks, ignore_index=True)
    #也可用