该部分为学习笔记,具体内容详见:《利用Python进行数据分析》一书
访问数据是使用本书中各类工具所必需的第一步。将重点关注使用 pandas 进行数据输入和输出,尽管其他库中有许多工具可帮助读取和写入各种格式的数据。
Python数据分析——数据载入、存储及文件格式
一、文本格式数据的读写
将表格型数据读取为 DataFrame 对象是 pandas 的重要特性。read_csv 和 read_table 可能是后期我们使用最多的函数。除此之外,还有 read_fwf,read_clipboard,read_excel,read_html,read_json。这些函数的可选参数主要有以下几种类型:
- 索引
可以将一或多个列作为返回的 DataFrame,从文件或用户处获得列名,或者没有列名。 - 类型推断和数据转换
包括用户自定义的值转换和自定义的缺失值符号列表 - 日期时间解析
包括组合功能,也包括将分散在多个列上的日期和事件信息组合成结果中的单个列。 - 迭代
支持对大型文件的分块迭代 - 未清洗数据问题
跳过行、页脚、注释以及其他次要数据,比如使用逗号分隔千位的数字。
1. 分块读入文本文件
当处理大型文件或找出正确的参数集来正确处理大文件时,你可能需要读入文件的一个小片段或按小块遍历文件。