数据分析之Pandas(六)文件读取与存储

本文详细介绍了Pandas在数据分析中的文件读取与存储,包括CSV、HDF5和JSON三种格式。重点讨论了pandas.read_csv()和pd.to_csv()的参数用法,HDF5的读写特性以及JSON的orient参数。强调HDF5在读写效率和空间占用上的优势,并提供了相关案例和资源链接。
摘要由CSDN通过智能技术生成

文件读取与存储

我们的数据大部分存在于文件当中,所以pandas会支持复杂的IO操作,pandas的API支持众多的文件格式,如CSV、SQL、XLS、JSON、HDF5
在这里插入图片描述
注:最常用的HDF5和CSV文件

文件读取与存储

  • CSV读取与存储

    • pd.read_csv()
      • usecols参数用于选择部分列,而不是全部
    • pd.to_csv()
      • columns用于选择需要写出的列
      • header控制是否写出列的名字
      • index控制是否写出行的名字
  • HDF5读取与存储

    • HDF5是一种容器,一个HDF5文件中可以存放多份DataFrame/Series数据,不同的数据用不同的Key来区分。
    • pd.read_hdf(),如果文件中只有一个key,则可以不指定
    • pd.to_hdf(),必须得指定key
  • CSV与HDF5对比

    • 写效率:HDF5高
    • 读效率:HDF5高
    • 占空间:HDF5少
  • 如何获取HDF5文件中的key?

    • store = pd.HDFStore(‘high.h5’)
    • store.keys()
  • JSON读取与存储

    • pd.read_json()
    • orient:文件的结构,这里的参数的值必须与文件的结构相符
      • index,以行为单位
      • columns,以列为单位
      • records,以记录为单位
        不同的参数值只影响文件的结构,不影响实际的数据
      • lines: 也要和文件的结构相符,之在orient='records’才有意义
  • pd.to_json()

CSV

读取csv文件-read_csv

  • pandas.read_csv(filepath_or_buffer, sep =’,’ , delimiter = None)
    • filepath_or_buffer:文件路径
    • usecols:指定读取的列名,列表形式
      在这里插入图片描述
      读取之前的股票的数据,并且指定只获取’open’, 'close’指标
import pandas as pd
# 读取文件,并且指定只获取'open', 'close'指标
data = pd.read_csv('./stock_day.csv',usecols = ['open','close'])
data.head()

在这里插入图片描述

写入csv文件-to_csv<

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值