数据清洗是整个数据分析过程的第一步,也是整个数据分析项目中最耗费时间的一步。数据清洗的过程决定了数据分析的准确性。随着大数据的越来越普及,数据清洗是必备的技能之一,本教程将较为完整地介绍利用python进行数据清洗的整个过程。即适合零基础的小白也可作为数据清洗大佬的复习指南。文章较长,干货较多,建议大家先收藏后观看,希望对大家有所帮助。
为了方便阅读和复习,本教程中的代码均采用图片形式,源代码和所需要的数据在下面的链接里
链接:https://pan.baidu.com/s/1-3PMsSs5XKjhszVXQIABpw
提取码:23uk
课程大纲
1.数据清洗之常用工具
数据清洗意义
- 现实生活中,数据并非完美的, 需要进行清洗才能进行后面的数据分析
- 数据清洗是整个数据分析项目最消耗时间的一步
- 数据的质量最终决定了数据分析的准确性
- 数据清洗是唯一可以提高数据质量的方法,使得数据分析的结果也变得更加可靠
数据清洗常用工具
- 目前在Python中, numpy和pandas是最主流的工具
- Numpy中的向量化运算使得数据处理变得高效
- Pandas提供了大量数据清洗的高效方法
- 在Python中,尽可能多的使用numpy和pandas中的函数,提高数据清洗的效率
1.1 Numpy
Numpy常用数据结构
- Numpy中常用的数据结构是ndarray格式
- 使用array函数创建,语法格式为array(列表或元组)
- 可以使用其他函数例如arange、linspace、zeros等创建
Numpy常用方法
- ndim: 返回int,表示ndarray的维度
- shape:返回尺寸,几行几列
- size: