立即学习:https://edu.csdn.net/course/play/26990/361139?utm_source=blogtoedu
课程定位:
- 零基础或者有一定基础的学员
- 在职从事数据分析相关学员
- 进一步熟练使用Python数据清洗学员
- 转行数据分析学员
课程目标:
- 熟练掌握数据清洗相关方法和技巧
- 熟练掌握Numpy和pandas库在数据清洗中的运用
- 能够独立完成数据分析项目中数据清洗阶段
课程大纲:
- 数据清洗之常用工具
- 数据清洗之文件操作
- 数据清洗值数据表处理
- 数据请悉知数据转换
- 数据清洗之数据统计
- 数据清洗之数据预处理
一、数据清洗之常用工具:
- Numpy常用数据结构和方法
- Numpy常用数据清洗函数
- Pandas常用数据结构series和方法
- Pandas常用数据结构dataframe和方法
二、数据清洗之文件操作:
- Pandas读写CSV文件和相关参数解释
- Pandas读写excel文件和相关参数解释
- Pandas与mysql的交互
三、数据清洗之数据表处理:
- 数据筛选
- 数据增加和删除
- 数据修改和查找
- 数据整理
四、数据清洗之数据转换:
- 字符串数据处理
- 日期格式数据处理
- 利用函数或者映射对数据转换
五、数据清洗之数据统计:
- 数据分组groupby方法
- 分组对象聚合函数运用
- 分组对象和apply函数运用
六、数据清洗之数据预处理:
- 重复值处理
- 缺失值处理
- 异常值处理
- 数据离散化
数据清洗的实质:将不符合规范的数据转换成符合要求的数据。
”脏数据“主要情况如下:
- 数据缺失(Incomplete) 是属性值为空的情况。 如Occupancy = " "
- 数据噪声(Noisy) 是数据值不合常理的情况。如 Salary = "-100"
- 数据不一致(Inconsistent) 是数据前后存在矛盾的情况。如Age = "042" 或者Birthday = "01/09/1985"
- 数据冗余(Redunant) 是数据量或者属性数目超过数据分析需要的情况。
- 离群点/异常值(Outliers) 是偏离大部分值得数据。
- 数据重复是在数据集中出现多次的数据。