1. pandas库简介
- pandas是一个Python扩展程序库,用于数据分析,功能类似于Excel。
2. 数据加载与路径选择
- 数据加载步骤包括载入数据、导入numpy和pandas等。
- 使用相对路径和绝对路径读取数据。
3. 数据读取与分块操作
- 读取CSV文件。
- 逐块读取数据,适用于大数据集。
4. 数据表头修改
- 将数据表头改写成中文。
5. 数据观察与操作
- 指定列名、读取数据、数据概览。
- 空值判断和数据保存。
6. 数据处理
- 观察数据、删除多余的列和行。
- 使用条件筛选数据。
- 选择和查看特定行数据。
7. 数据排序与综合排序
- 根据需求对数据进行升序或降序排序。
- 按列排序,实现综合排序。
8. 数据框加法与统计
- 两个数据框相加,进行算数计算。
- 使用
describe
函数进行数据描述性统计。
9. 数据分析实例
- 泰坦尼克号事件中的票价和父母子女个数关系分析。
10. 数据清洗与异常值处理
- 数据清洗的概念和方法,包括处理空值和异常值。
11. 真实数据分析过程
- 观察数据、去除离谱值、特征构建。
- 演示真实数据分析过程中的问题和处理方法。
12. 数据处理的重要性
- 强调使用pandas进行数据处理的重要性。
- 介绍实际应用场景和解决问题的方法。