关于数据的加载、存储和文件的格式
主要使用pandas
文本格式数据的读写
将表格性数据读取为pandas中的DataFrame对象。其中的read_csv
和read_table
用的最多。
pandas常见的解析函数:
这些函数将文本数据转换为pandas便于pandas处理的DataFrame对象,这些函数的可选参数主要有以下几种:
索引:
- 可以将一个或多个列作为返回的DataFrame,从文件或用户获取列名,也可以没有列名
类型推断和数据转换:
- 包括用户自定义的值转换和自定义的缺失值符号列表
日期时间解析:
- 包括组合功能,也包括将分散在多个列上的日期和时间信息组合成结果中的单个列
迭代:
- 支持对大型文件的分块迭代
未清洗的数据问题:
- 跳过行、页脚、注释以及其他次要数据,比如使用逗号分隔千位的数字