数据分析之Pandas（六）文件读取与存储

最新推荐文章于 2024-08-26 16:32:35 发布

提莫君

最新推荐文章于 2024-08-26 16:32:35 发布

阅读量3.1k

点赞数 1

分类专栏：数据分析与挖掘基本工具文章标签：数据分析 pandas IO操作文件读取与存储

本文链接：https://blog.csdn.net/qq_42642945/article/details/88637037

版权

本文详细介绍了Pandas在数据分析中的文件读取与存储，包括CSV、HDF5和JSON三种格式。重点讨论了pandas.read_csv()和pd.to_csv()的参数用法，HDF5的读写特性以及JSON的orient参数。强调HDF5在读写效率和空间占用上的优势，并提供了相关案例和资源链接。

摘要由CSDN通过智能技术生成

我们的数据大部分存在于文件当中，所以pandas会支持复杂的IO操作，pandas的API支持众多的文件格式，如CSV、SQL、XLS、JSON、HDF5。
在这里插入图片描述
注：最常用的HDF5和CSV文件

文件读取与存储

CSV读取与存储
- pd.read_csv()
  - usecols参数用于选择部分列，而不是全部
- pd.to_csv()
  - columns用于选择需要写出的列
  - header控制是否写出列的名字
  - index控制是否写出行的名字
HDF5读取与存储
- HDF5是一种容器，一个HDF5文件中可以存放多份DataFrame/Series数据，不同的数据用不同的Key来区分。
- pd.read_hdf()，如果文件中只有一个key，则可以不指定
- pd.to_hdf()，必须得指定key
CSV与HDF5对比
- 写效率：HDF5高
- 读效率：HDF5高
- 占空间：HDF5少
如何获取HDF5文件中的key？
- store = pd.HDFStore(‘high.h5’)
- store.keys()
JSON读取与存储
- pd.read_json()
- orient：文件的结构，这里的参数的值必须与文件的结构相符
  - index，以行为单位
  - columns，以列为单位
  - records，以记录为单位
    不同的参数值只影响文件的结构，不影响实际的数据
  - lines: 也要和文件的结构相符，之在orient='records’才有意义
pd.to_json()

读取csv文件-read_csv

pandas.read_csv(filepath_or_buffer, sep =’,’ , delimiter = None)
- filepath_or_buffer:文件路径
- usecols:指定读取的列名，列表形式
  
  读取之前的股票的数据，并且指定只获取’open’, 'close’指标

import pandas as pd
# 读取文件,并且指定只获取'open', 'close'指标
data = pd.read_csv('./stock_day.csv',usecols = ['open','close'])
data.head()

在这里插入图片描述

写入csv文件-to_csv<

关注

专栏目录