Python利用pandas和其他库读取excel，csv，josn等格式-josn是难点，尤其大量josn数据文件_简述读取excel、csv、txt以及josn文件关键字的作用-CSDN博客

本文链接：https://blog.csdn.net/weixin_39490300/article/details/123577108

本文详细介绍了如何使用pandas和ijosn库高效读取csv、excel和json文件，包括大文件处理技巧，以及如何根据json结构动态创建DataFrame。特别关注了处理大规模json和内存管理的方法。

摘要由CSDN通过智能技术生成

文章目录

数据读取难在哪里
csv文件的读取：read_csv
excel文件读取
少量josn读入
大量josn如何处理

听说点进蝈仔帖子的都喜欢点赞加关注~~

数据方面必备库：

pandas
https://pandas.pydata.org/
在这里插入图片描述
ijosn
https://pypi.org/project/ijson/

numpy
https://numpy.org/

数据读取难在哪里

几大难点：

数据量大
语法不会
不知道有什么库
不知道读入后如何处理

从简到难，逐个破解

csv文件的读取：read_csv

import pandas as pd
df = pd.read_csv('./csvFile.csv')
print(df)

excel文件读取

import pandas as pd
io='./excelFile.csv'
data = pd.read_excel(io, sheet_name = 1)
data.head()

列表名：目标sheet的名称，中英文皆可。

data = pd.read_excel(io, sheet_name = '中国')
data.head()

SheetN：代表第N个sheet，S要大写，注意与整型数字的区别。

data = pd.read_excel(io, sheet_name = 'Sheet5')
data.head()

这里推荐使用.format方法，以便于大量读入。

少量josn读入

df = pd.read_json('a.json')
print(df)

大量josn如何处理

使用ijosn工具，可以迭代读入，防止内存溢出。

import ijson
#这里输入你的文件路径
file_name = './..'
with open(file_name, 'r', encoding='utf-8') as f:
    obj = list(ijson.items(f, 'results.FILE_CREATED.item')) 
#'results.FILE_CREATED.item'是json文件目录和你想要的内容，我的json文件内容如下所示：

import ijson

filename = "traffic.json"
with open(filename, 'r') as f:
    objects = ijson.items(f, 'meta.view.columns.item')
    columns = list(objects)

column_names = [col["fieldName"] for col in columns]

import pandas as pd
temp= pd.DataFrame(data, columns=need_columns)