一:介绍
该案例来自《利用Python进行数据分析·第2版》,分析的对象是美国农业部(USDA)制作的一份有关食物营养信息的数据库。
二:分析流程
1:读取数据:
import json
import pandas as pd
db = json.load(open('C:/Users/17322/Desktop/datasets/usda_food/database.json' ))
2:汇总nutrients项:
数据集里每项是某种食物的全部数据,其key:nutrients是一个字典列表,里面每个字典对应某种营养成分
nutrients_test = pd.DataFrame(db[-1]['nutrients'])
nutrients_test
借由以下代码将前1000项食物的nutrients汇总起来(整个数据集太大,笔记本无法处理,所以我只选取前1000)
nutrients = pd.DataFrame(db[0]['nutrients'])
nutrients['id'] = 1008
for i in range(1,1000):
nutrient_i = pd.DataFrame(db[i]['nutrients'])
nutrient_i['id'] = i