json pandas 内存溢出_duyun

最新推荐文章于 2024-05-06 00:41:11 发布

weixin_39805644

最新推荐文章于 2024-05-06 00:41:11 发布

阅读量138

点赞数

文章标签： json pandas 内存溢出

本文链接：https://blog.csdn.net/weixin_39805644/article/details/111726946

版权

Pandas 处理 JSON 文件

介绍

本节实验为挑战，你将使用上一节实验中学习到的 Pandas 知识，分析用户学习数据 JSON 文件，并从文件中统计出中指定的数据项。首先在终端中，通过以下命令下载用户学习数据 JSON 文件 user_study.json:

cd ~/Code

wget http://labfile.oss.aliyuncs.com/courses/764/user_study.json

user_study.json 文件部分内容展示如下：

{"minutes": 30, "created_at": "2016-05-01 00:00:10", "user_id": 199071, "lab": "\u7528\u6237\u53ca\u6587\u4ef6\u6743\u9650\u7ba1\u7406", "course": "Linux \u57fa\u7840\u5165\u95e8\uff08\u65b0\u7248\uff09"}

可以看到，文件中每一项为用户学习记录，代表某用户的某一次学习，其中每一项字段含义如下：

user_id 用户 ID

lab 实验名称

course 课程名称

minutes 学习分钟数

created_at 学习时间

在本挑战中，你需要在 ~/Code/analysis.py Python 文件中编写一个解析并统计学习数据的函数 analysis，analysis 函数接受两个参数。第一个参数为学习数据 JSON 文件名称，其文件内容格式和 user_study.json 文件格式一致，第二个参数为用户 ID。你需要使用 Pandas 读取 JSON 文件，并从中统计出第二个参数指定的用户 ID 的学习次数和总学习分钟数，也就是说函数将返回两个值，第一个为指定用户的学习次数(即数据文件中该用户的数据有多少条)，第二个为指定用户的总学习分钟数。示例代码：

# 需要使用 JSON 包解析 JSON 文件

import json

import pandas as pd

def analysis(file, user_id):

times = 0

minutes = 0

'''

补充代码：

1. 使用 Pandas 读取数据

2. 使用 Pandas 选择数据

'''

return times, minutes