利用Python进行数据分析—美国农业部视频数据库

美国农业部视频数据库

我们对美国农业部的食物营养信息数据库进行了一些数据清洗和转换的工作。以下是主要的数据处理步骤和结果:

加载数据并检查数据结构:

import json
db = json.load(open("datasets/usda_food/database.json"))
len(db)
6636
db[0].keys()

在这里插入图片描述

提取营养元素信息:

nutrients = pd.DataFrame(db[0]["nutrients"])
nutrients.head(7)

在这里插入图片描述

提取食物基本信息:

info_keys = ["description", "group", "id", "manufacturer"]
info = pd.DataFrame(db, columns=info_keys)
info.head()

在这里插入图片描述

将营养元素信息和食物基本信息进行合并:

ndata = pd.merge(nutrients, info, on="id")
ndata.info()

在这里插入图片描述

统计特定营养元素的中位数,并进行柱状图可视化:

result = ndata.groupby(["nutrient", "fgroup"])["value"].quantile(0.5)
result["Zinc, Zn"].sort_values().plot(kind="barh")

在这里插入图片描述

根据营养元素组和营养元素分组,获取具有最高值的食物:

by_nutrient = ndata.groupby(["nutgroup", "nutrient"])
def get_maximum(x):
    return x.loc[x.value.idxmax()]
max_foods = by_nutrient.apply(get_maximum)[["value", "food"]]

在这里插入图片描述

以上是对美国农业部食物营养信息数据库的数据清洗和转换的一些分析。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值