Python利用pandas和其他库读取excel,csv,josn等格式-josn是难点,尤其大量josn数据文件

59 篇文章 4 订阅
46 篇文章 3 订阅
本文详细介绍了如何使用pandas和ijosn库高效读取csv、excel和json文件,包括大文件处理技巧,以及如何根据json结构动态创建DataFrame。特别关注了处理大规模json和内存管理的方法。
摘要由CSDN通过智能技术生成


听说点进蝈仔帖子的都喜欢点赞加关注~~

数据方面必备库:

pandas
https://pandas.pydata.org/
在这里插入图片描述
ijosn
https://pypi.org/project/ijson/
在这里插入图片描述
numpy
https://numpy.org/
在这里插入图片描述

数据读取难在哪里

几大难点:

  • 数据量大
  • 语法不会
  • 不知道有什么库
  • 不知道读入后如何处理

从简到难,逐个破解

csv文件的读取:read_csv

import pandas as pd
df = pd.read_csv('./csvFile.csv')
print(df)

excel文件读取

import pandas as pd
io='./excelFile.csv'
data = pd.read_excel(io, sheet_name = 1)
data.head()

列表名:目标sheet的名称,中英文皆可。

data = pd.read_excel(io, sheet_name = '中国')
data.head()

SheetN:代表第N个sheet,S要大写,注意与整型数字的区别。

data = pd.read_excel(io, sheet_name = 'Sheet5')
data.head()

这里推荐使用.format方法,以便于大量读入。

少量josn读入

df = pd.read_json('a.json')
print(df)

大量josn如何处理

使用ijosn工具,可以迭代读入,防止内存溢出。

import ijson
#这里输入你的文件路径
file_name = './..'
with open(file_name, 'r', encoding='utf-8') as f:
    obj = list(ijson.items(f, 'results.FILE_CREATED.item')) 
#'results.FILE_CREATED.item'是json文件目录和你想要的内容,我的json文件内容如下所示:
import ijson
​
filename = "traffic.json"
with open(filename, 'r') as f:
    objects = ijson.items(f, 'meta.view.columns.item')
    columns = list(objects)

column_names = [col["fieldName"] for col in columns]
import pandas as pd
temp= pd.DataFrame(data, columns=need_columns)
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值