Python数据分析——数据载入、存储及文件格式

该部分为学习笔记,具体内容详见:《利用Python进行数据分析》一书
访问数据是使用本书中各类工具所必需的第一步。将重点关注使用 pandas 进行数据输入和输出,尽管其他库中有许多工具可帮助读取和写入各种格式的数据。

一、文本格式数据的读写

将表格型数据读取为 DataFrame 对象是 pandas 的重要特性。read_csv 和 read_table 可能是后期我们使用最多的函数。除此之外,还有 read_fwf,read_clipboard,read_excel,read_html,read_json。这些函数的可选参数主要有以下几种类型:

  • 索引
    可以将一或多个列作为返回的 DataFrame,从文件或用户处获得列名,或者没有列名。
  • 类型推断和数据转换
    包括用户自定义的值转换和自定义的缺失值符号列表
  • 日期时间解析
    包括组合功能,也包括将分散在多个列上的日期和事件信息组合成结果中的单个列。
  • 迭代
    支持对大型文件的分块迭代
  • 未清洗数据问题
    跳过行、页脚、注释以及其他次要数据,比如使用逗号分隔千位的数字。

1. 分块读入文本文件

当处理大型文件或找出正确的参数集来正确处理大文件时,你可能需要读入文件的一个小片段或按小块遍历文件。

2. 将数据写入文本格式

3. 使用分割格式

4. JSON数据

5. XML 和 HTML:网络抓取

二、二进制格式

1. 使用 HDF5 格式

2. 读取 Microsoft Excel 文件

三、与 Web API 交互

四、与数据库交互

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值