1. json文件是什么
从结构上看,所有的数据(data)最终可以分解成三种类型:
第一种类型是标量scalar,也就是一个单独的字符串string或数字numbers,比如“成都”这个单独的词。
第二种类型是序列sequence,也就是若干个相关的数据按照一定顺序并列在一起,又叫做数组array,或者列表list,比如“成都,重庆”。
第三种类型是映射mapping,也就是一个名/值name/value,即数据有一个名称,还有一个与之相对应的值,这又称作散列hash或字典dictionary,比如“蓉城:成都”。
是啊,原来数据构成的最小单元经如此简单。难怪在编程语言中,只要有了数组array和对象object就能够存储一切数据了。
那么json呢?json这种文本文件又是怎么存储数据的呢?
21世纪初。Douglas crockford寻找一种简便的数据交换格式,能够在服务器之间交换数据。当时通用的数据交换语言是xml,但是Douglas crockford觉得xml的生成和解析都太麻烦,所以他提出了一种简化格式,也就是json。
json的格式非常简单,只用一个页面几百个字就能说清楚,而且Douglas crockford声称这个规格永远不必升级,因为该规定的都规定了。
(1)并列的数据之间用逗号(,)分隔
(2)映射用冒号(:)表示
(3)并列数据的集合(数组)用方括号([])表示
(4)映射的集合(对象)用大括号({})表示
以上四条规则,就是json格式的所有内容。
由此可见,json非常易学易用,所以,在短短几年中,她就取代了xml,成为了互联网上最受欢迎的数据交换格式。
2. 如何使用python的json模块从json文件读取数据
import json
a = open('file_path.json')
b = json.load(a)
然后就可以使用b来引用json文件中的数据了,如:
b.name
3. 如何操作每一行都是一个json的文件
格式:
{"query": "xxx", "pos": ["aaa", "bbb"], "neg": ["ccc", "ddd"]}
{"query": "yyy", "pos": ["eee", "fff"], "neg": ["ggg", "hhh"]}
操作:
import json
train_data = []
# 读取文件
for line in open(input_file):
line = json.loads(line.strip())
query = line['query']
pos = line['pos']
neg = line['neg']
train_data.append(line)
# 写入文件
with open(output_file, 'w') as f:
for data in train_data:
# 这里的ensure_ascii=False避免了最后写入为unicode
f.write(json.dumps(data, ensure_ascii=False) + '\n')
4. 使用json模块将str转为dict
import json
str_self = "{a:1, b:2}"
str_self_dict = json.loads(str_self)
如果str_self比较复杂,里面既有双引号又有单引号的话直接使用json.loads()会出错,需要将单引号换为双引号:
str_self = str_self.replace("\"", "\\\"").replace("\'", "\"")
str_self_dict = json.loads(str_self)