Python 标准库之 json 模块
JSON简介
JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。它基于JavaScript(Standard ECMA-262 3rd Edition - December 1999)的一个子集。 JSON采用完全独立于语言的文本格式,但是也使用了类似于C语言家族的习惯(包括C, C++, C#, Java, JavaScript, Perl, Python等)。这些特性使JSON成为理想的数据交换语言。易于人阅读和编写,同时也易于机器解析和生成(网络传输速度快)。
json模块基本使用
json模块有4个基本功能:
-
dumps 将一个字典转换成 json
-
dump 将一个文件转换成 json
-
loads 读取 sring 转化成字典
-
load 读取 filename 转化成字典
json.dump()
json.dump(obj, fp, *, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None, indent=None, separators=None, default=None, sort_keys=False, **kw)
使用下列转换表将 obj 序列化为 JSON 格式化流形式的 fp (支持 .write()
的 file-like object )。
Python | JSON |
---|---|
dict | object |
list, tuple | array |
str | string |
int, float, int 和 float 派生的枚举 | number |
True | true |
False | false |
None | null |
如果 skipkeys 是 True (默认为 False),那么那些不是基本对象(包括 str、int、float、bool、None)的字典的键会被跳过;否则引发一个 TypeError。
json 模块始终产生 str 对象而非 bytes 对象。因此,fp.write() 必须支持 str 输入。
如果 ensure_ascii 是 True (即默认值),输出保证将所有输入的非 ASCII 字符转义。如果 ensure_ascii 是 False,这些字符会原样输出。
如果 check_circular 是为假值 (默认为 True),那么容器类型的循环引用检验会被跳过并且循环引用会引发一个 OverflowError (或者更糟的情况)。
如果 allow_nan 是 False(默认为 True),那么在对严格 JSON 规格范围外的 float 类型值(nan、inf 和 -inf)进行序列化时会引发一个 ValueError。如果 allow_nan 是 True,则使用它们的 JavaScript 等价形式(NaN、Infinity 和 -Infinity)。
如果 indent 是一个非负整数或者字符串,那么 JSON 数组元素和对象成员会被美化输出为该值指定的缩进等级。如果缩进等级为 0、负数或者 “”,则只会添加换行符。None(默认值)选择最紧凑的表达。使用一个正整数会让每一层缩进同样数量的空格。如果 indent 是一个字符串(比如 “\t”),那个字符串会被用于缩进每一层。
在 3.2 版更改: 现允许使用字符串作为 indent 而不再仅仅是整数。
当被指定时,separators 应当是一个 (item_separator, key_separator) 元组。当 indent 为 None 时,默认值取 (’, ', ‘: ‘),否则取 (’,’, ‘: ‘)。为了得到最紧凑的 JSON 表达式,你应该指定其为 (’,’, ‘:’) 以消除空白字符。
在 3.4 版更改: 现当 indent 不是 None 时,采用 (’,’, ': ') 作为默认值。
当 default 被指定时,其应该是一个函数,每当某个对象无法被序列化时它会被调用。它应该返回该对象的一个可以被 JSON 编码的版本或者引发一个 TypeError。如果没有被指定,则会直接引发 TypeError。
如果 sort_keys 是 True(默认为 False),那么字典的输出会以键的顺序排序。
为了使用一个自定义的 JSONEncoder 子类(比如:覆盖了 default() 方法来序列化额外的类型), 通过 cls 关键字参数来指定;否则将使用 JSONEncoder。
在 3.6 版更改: 所有可选形参现在都是 仅限关键字参数。
json.dumps()
json.dumps(obj, *, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None, indent=None, separators=None, default=None, sort_keys=False, **kw)
使用转换表将 obj 序列化为 JSON 格式的 str。 其参数的含义与 dump() 中的相同。
JSON 中的键-值对中的键永远是 str 类型的。当一个对象被转化为 JSON 时,字典中所有的键都会被强制转换为字符串。这所造成的结果是字典被转换为 JSON 然后转换回字典时可能和原来的不相等。换句话说,如果 x 具有非字符串的键,则有 loads(dumps(x)) != x
。
class json.JSONEncoder:dump/dumps的时候调用,将python对象编码为JSON格式序列
json.load()
json.load(fp, *, cls=None, object_hook=None, parse_float=None, parse_int=None, parse_constant=None, object_pairs_hook=None, **kw)
使用下列 转换表 将 fp (一个支持 .read()
并包含一个 JSON 文档的 text file 或者 binary file) 反序列化为一个 Python 对象。
JSON | Python |
---|---|
object | dict |
array | list |
string | str |
number (int) | int |
number (real) | float |
true | True |
false | False |
null | None |
object_hook 是一个可选的函数,它会被调用于每一个解码出的对象字面量(即一个 dict)。object_hook 的返回值会取代原本的 dict。这一特性能够被用于实现自定义解码器(如 JSON-RPC 的类型提示)。
object_pairs_hook 是一个可选的函数,它会被调用于每一个有序列表对解码出的对象字面量。 object_pairs_hook 的返回值将会取代原本的 dict 。这一特性能够被用于实现自定义解码器。如果 object_hook 也被定义, object_pairs_hook 优先。
在 3.1 版更改: 添加了对 object_pairs_hook 的支持。
parse_float ,如果指定,将与每个要解码 JSON 浮点数的字符串一同调用。默认状态下,相当于 float(num_str) 。可以用于对 JSON 浮点数使用其它数据类型和语法分析程序 (比如 decimal.Decimal )。
parse_int ,如果指定,将与每个要解码 JSON 整数的字符串一同调用。默认状态下,相当于 int(num_str) 。可以用于对 JSON 整数使用其它数据类型和语法分析程序 (比如 float )。
parse_constant ,如果指定,将要与以下字符串中的一个一同调用: ‘-Infinity’ , ‘Infinity’ , ‘NaN’ 。如果遇到无效的 JSON 数字则可以使用它引发异常。
在 3.1 版更改: parse_constant 不再调用 ‘null’ , ‘true’ , ‘false’ 。
要使用自定义的 JSONDecoder 子类,用 cls 指定他;否则使用 JSONDecoder 。额外的关键词参数会通过类的构造函数传递。
如果反序列化的数据不是有效 JSON 文档,引发 JSONDecodeError 错误。
在 3.6 版更改: 所有可选形参现在都是 仅限关键字参数。
在 3.6 版更改: fp 现在可以是 binary file 。输入编码应当是 UTF-8 , UTF-16 或者 UTF-32 。
json.loads()
json.loads(s, *, cls=None, object_hook=None, parse_float=None, parse_int=None, parse_constant=None, object_pairs_hook=None, **kw)
使用 转换表 将 s (一个包含 JSON 文档的 str, bytes 或 bytearray 实例) 反序列化为 Python 对象。
除了encoding被忽略和弃用自 Python 3.1 以来,其他参数的含义与 load() 中相同。
如果反序列化的数据不是有效 JSON 文档,引发 JSONDecodeError 错误。
Deprecated since version 3.1, will be removed in version 3.9: encoding 关键字参数。
在 3.6 版更改: s 现在可以为 bytes 或 bytearray 类型。 输入编码应为 UTF-8, UTF-16 或 UTF-32。
class simplejson.JSONDecoder:load/loads的时候调用,将JSON格式序列解码为python对象
第三方库simplejson
simplejson 是一个简单、快速、完整、正确和可扩展的 JSON 编码器和解码器。它是纯 Python 代码,没有任何依赖项,但是包含一个可选的 C 扩展,可以大大提高速度。
优点如下:
-
json是python的标准库,是从python 2.6以后才引入
-
simplejson非python标准库,需要单独安装
pip install simplejson
-
一般来说simplejson的转存和载入性能比json高
可以采用如下方式引用:
try:
import simplejson as json
except ImportError:
import json