IJSON 使用流处理的方式处理超大的 json 文件

最新推荐文章于 2025-04-01 11:30:26 发布

暖仔会飞

最新推荐文章于 2025-04-01 11:30:26 发布

阅读量2.4k

点赞数

分类专栏：日常学习文章标签： json

本文链接：https://blog.csdn.net/qq_42902997/article/details/129156466

版权

日常学习专栏收录该内容

108 篇文章

订阅专栏

文章介绍了在处理大JSON文件时，由于json.load会一次性加载整个文件导致内存压力和长时间等待的问题。为了解决这个问题，推荐使用ijson库进行分块迭代读取，这样可以逐个处理文件中的item，提高效率并减少内存占用。示例代码展示了如何使用ijson.items来读取并处理original_text和correct_text字段。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

背景
安装
使用

背景

通常情况下我们都会使用 json 标准库中的 json.load 来加载 json 文件
但是这种方式的缺点就是，他会一次性将 json 文件加载到内存中，所以电脑会很卡，等待时间很长
因此推荐使用 ijson 的方式来替代

安装

pip install ijson

使用

通过这种方式加载，record 就是每一个 json 文件中的 item 了

    with open(path, 'r') as f:
        i = 0
        for record in tqdm(ijson.items(f, "item")):
            origin = record["original_text"]
            correct = record["correct_text"]