听说点进蝈仔帖子的都喜欢点赞加关注~~
数据方面必备库:
pandas
https://pandas.pydata.org/
ijosn
https://pypi.org/project/ijson/
numpy
https://numpy.org/
数据读取难在哪里
几大难点:
- 数据量大
- 语法不会
- 不知道有什么库
- 不知道读入后如何处理
从简到难,逐个破解
csv文件的读取:read_csv
import pandas as pd
df = pd.read_csv('./csvFile.csv')
print(df)
excel文件读取
import pandas as pd
io='./excelFile.csv'
data = pd.read_excel(io, sheet_name = 1)
data.head()
列表名:目标sheet的名称,中英文皆可。
data = pd.read_excel(io, sheet_name = '中国')
data.head()
SheetN:代表第N个sheet,S要大写,注意与整型数字的区别。
data = pd.read_excel(io, sheet_name = 'Sheet5')
data.head()
这里推荐使用.format方法,以便于大量读入。
少量josn读入
df = pd.read_json('a.json')
print(df)
大量josn如何处理
使用ijosn工具,可以迭代读入,防止内存溢出。
import ijson
#这里输入你的文件路径
file_name = './..'
with open(file_name, 'r', encoding='utf-8') as f:
obj = list(ijson.items(f, 'results.FILE_CREATED.item'))
#'results.FILE_CREATED.item'是json文件目录和你想要的内容,我的json文件内容如下所示:
import ijson
filename = "traffic.json"
with open(filename, 'r') as f:
objects = ijson.items(f, 'meta.view.columns.item')
columns = list(objects)
column_names = [col["fieldName"] for col in columns]
import pandas as pd
temp= pd.DataFrame(data, columns=need_columns)