python之解析超大的json数据(GB级别)

前言

使用Python解析各种格式的数据都很方便,比如json、txt、xml、csv等。用于处理简单的数据完全足够用了,而且代码简单易懂。

前段时间我遇到一个问题,如何解析超大的json文件呢?刚开始天真的我在使用json.load直接加载json文件,然而内存报错却给了我当头一棒,json.load它是直接将数据加载到内存中然后解析出来的,这说明什么呢?当你的json文件过于庞大的时候,你的电脑内存装不下你的json文件,这时候就相当尴尬了,加载不了,解析不了!!

怎么办呢?我赶紧上网查阅资料,网上大部份资料都是基于分块的思路解决超大数据文件的解析的,比如read函数可以一块一块加载,像这样read(1024)每次读取1024字节,总能将数据读取完的。或者是readline函数,每次读取一行,这个函数的读取方式特别适合txt、csv文件。然而这样的函数对于json格式的数据就完全不适用了,因为json格式的文件是有严格的结构的。你不可能一块一块的或者一行一行的读取,噢不对,你可以这样读取,但是你这样读取出来的数据是完全没有意义的,因为无法解析,你无法获得你想要的数据。
块读取的方式不行,那该怎么办呢,流式读取呗,这时候我想起了万能的GitHub,上去Github搜索python json parser。看看我发现了什么!!!


一、ijson是什么?

在这里插入图片描述
啊,太棒了,光看简介基于python的迭代的json解析器,我感觉我的问题可能要被解决掉了。

果不其然,ijson完美的解决了我的问题,它抽取了json文件的特征形成了一个生成器的东西,下面举一个实例。


{
  "earth": {
    "europe": [
      {
        "name": "Paris",
        "type": "city",
        "info": "aaa"
      },
      {
        "name": "Thames",
        "type": "river",
        "info": "sss"
      },
      {
        "name": "yyy",
        "type": "city",
        "info": "aaa"
      },
      {
        "name": "eee",
        "type": "river",
        "info": "sss"
      }
    ],
    "america": [
      {
        "name": "Texas",
        "type": "state",
        "info": "jjj"
      }
    ]
  }
}

这是一个简单的json文件,用它来演示json的效果。

import ijson

with open(‘test.json’, ‘r’, encoding=‘utf-8’) as f:
objects = ijson.items(f, ‘earth.europe.item’)
#这个objects在这里就是相当于一个生成器,可以调用next函数取它的下一个值
while True:
try:
print(objects.next())
except StopIteration as e:
print(“数据读取完成”)
break
很好,接下来看一下效果如何。

{‘name’: ‘Paris’, ‘type’: ‘city’, ‘info’: ‘aaa’}
{‘name’: ‘Thames’, ‘type’: ‘river’, ‘info’: ‘sss’}
{‘name’: ‘yyy’, ‘type’: ‘city’, ‘info’: ‘aaa’}
{‘name’: ‘eee’, ‘type’: ‘river’, ‘info’: ‘sss’}
数据读取完成
是不是很棒呢?

这样不会出现内存撑爆了的错误,因为它类似于生成器的方式流式读取json数据,熟悉生成器的朋友应该就很清楚了。

如果想要加速读取解析json文件,可以加上threading多线程模块。这里就不做演示了。

另外附上ijson模块的文档地址:https://pypi.org/project/ijson/文档本人就看了一部分。更多的内容没有深入了解,有兴趣的大佬可以深入研究下。

### 回答1: Python可以使用不同的库来解析JSON和XML数据。 对于JSON数据Python内置了json库,可以使用它来解析和生成JSON数据。使用json库可以将JSON数据转换为Python对象,例如字典或列表,也可以将Python对象转换为JSON数据。 对于XML数据Python可以使用许多不同的库来解析和生成XML数据。其中一些库包括ElementTree、lxml和xml.etree.ElementTree。这些库允许将XML数据转换为Python对象,例如Element对象或树,也可以将Python对象转换为XML数据。 总的来说,Python提供了许多不同的库来解析和生成JSON和XML数据,开发人员可以根据自己的需求选择最适合的库。 ### 回答2: 随着互联网的不断发展,数据解析变得越来越重要,因为我们需要从大量的数据中提取有用的信息来支持决策和业务流程。在Python中,我们可以使用两种主要格式来解析数据JSON和XML。 JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,以易于人类阅读和编写的形式表示数据对象。JSON使用键值对的方式存储数据,类似于Python中的字典。JSON格式的一个优点是它可以直接在Javascript中读取和处理,这使它成为Web应用程序中最常用的数据格式之一。Python中的JSON模块可以轻松地将JSON数据解析Python对象,反之亦然。我们使用JSON解析Web API的响应和其他数据源。 XML(eXtensible Markup Language)是一种标记语言,类似于HTML,但是它没有预定义的标记集合,并且可以扩展以创建任何定制标记。XML使用标记将数据存储在树形结构中,这使数据解析更容易。XML格式支持命名空间、错误处理和文档类型定义(DTD),这使得XML成为数据交换和存储的可扩展标准。在Python中,我们可以使用标准库中的ElementTree模块来解析XML文档,也可以使用第三方库例如lxml和xmltodict。 在数据解析方面,JSON和XML都有自己的优点和缺点。JSON更适合用于Web应用程序和结构化数据,而XML更适合用于大型的、可扩展的数据格式和在数据中包含大量文本的情况。因此,在选择使用哪种格式时,需要考虑需要解析数据类型和结构。 需要注意的是,对于大型数据集和性能要求较高的情况下,我们可以使用Python的C扩展模块,或者使用一些特殊的解析器,例如Cython、numba等。这些工具可以大幅提高程序性能。 无论使用哪种工具,数据解析都是Python中非常重要的一环,并且在实际工作和编程中都有广泛的应用。希望以上介绍能够帮助读者更好的理解和应用Python中的数据解析技术。 ### 回答3: 在Python中,对于数据解析,最常用的格式是JSON和XML。JSON(JavaScript对象表示法)是一种轻量级的数据交换格式,它基于JavaScript语言标准来创建,由键值对组成。XML(可扩展标记语言)是一种通用的标记语言,用于描述数据和传输数据。现在,我们来看一下Python中如何解析JSON和XML数据。 对于JSON数据解析,首先需要将其解析Python对应的数据结构。在Python中,有一个内置模块json,可以轻松完成JSON数据解析。具体的方法是使用json.loads()函数进行解析,该函数将JSON数据转换为Python字典或列表。 比如,我们有以下JSON数据: { "name": "John", "age": 30, "city": "New York" } 我们可以用下面的代码将其解析Python字典: import json json_data = '{"name": "John", "age": 30, "city": "New York"}' python_data = json.loads(json_data) print(python_data) 输出结果为: {'name': 'John', 'age': 30, 'city': 'New York'} 对于XML数据解析,我们需要使用Python的一个内置模块—xml.etree.ElementTree。这个模块可以方便地解析XML数据,并将其转换为Python字典或列表。 比如,我们有以下XML数据: <person> <name>John</name> <age>30</age> <city>New York</city> </person> 我们可以用下面的代码将其解析Python字典: import xml.etree.ElementTree as ET xml_data = '''<person> <name>John</name> <age>30</age> <city>New York</city> </person>''' root = ET.fromstring(xml_data) person = {} for child in root: person[child.tag] = child.text print(person) 输出结果为: {'name': 'John', 'age': '30', 'city': 'New York'} 总之,无论是解析JSON还是XML,Python都提供了非常方便的内置函数和模块,可以轻松地完成数据解析。在实际应用中,我们可以根据需要选择适合自己的数据格式,以方便数据的传输和处理。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值