学习笔记(01):Python数据清洗实战-课程导读

E10adcDing

于 2020-03-17 21:27:11 发布

阅读量346

点赞数

分类专栏：研发管理文章标签：数据编程语言 Python python 数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Fracksol/article/details/104931672

版权

研发管理专栏收录该内容

25 篇文章 0 订阅

订阅专栏

这门课程适合零基础或有一定基础的学习者，旨在帮助学员掌握数据清洗的方法和技巧，包括Numpy和Pandas的运用，涉及数据筛选、增加、删除、修改、查找、转换等操作，以及处理缺失值、异常值、重复值等问题，通过实例教学实现数据分析项目中的数据预处理。

摘要由CSDN通过智能技术生成

立即学习:https://edu.csdn.net/course/play/26990/361139?utm_source=blogtoedu

课程定位：

零基础或者有一定基础的学员
在职从事数据分析相关学员
进一步熟练使用Python数据清洗学员
转行数据分析学员

课程目标：

熟练掌握数据清洗相关方法和技巧
熟练掌握Numpy和pandas库在数据清洗中的运用
能够独立完成数据分析项目中数据清洗阶段

课程大纲：

数据清洗之常用工具
数据清洗之文件操作
数据清洗值数据表处理
数据请悉知数据转换
数据清洗之数据统计
数据清洗之数据预处理

一、数据清洗之常用工具：

Numpy常用数据结构和方法
Numpy常用数据清洗函数
Pandas常用数据结构series和方法
Pandas常用数据结构dataframe和方法

二、数据清洗之文件操作：

Pandas读写CSV文件和相关参数解释
Pandas读写excel文件和相关参数解释
Pandas与mysql的交互

三、数据清洗之数据表处理：

数据筛选
数据增加和删除
数据修改和查找
数据整理

四、数据清洗之数据转换：

字符串数据处理
日期格式数据处理
利用函数或者映射对数据转换

五、数据清洗之数据统计：

数据分组groupby方法
分组对象聚合函数运用
分组对象和apply函数运用

六、数据清洗之数据预处理：

重复值处理
缺失值处理
异常值处理
数据离散化

数据清洗的实质：将不符合规范的数据转换成符合要求的数据。

”脏数据“主要情况如下：

数据缺失(Incomplete) 是属性值为空的情况。如Occupancy = " "
数据噪声(Noisy) 是数据值不合常理的情况。如 Salary = "-100"
数据不一致(Inconsistent) 是数据前后存在矛盾的情况。如Age = "042" 或者Birthday = "01/09/1985"
数据冗余(Redunant) 是数据量或者属性数目超过数据分析需要的情况。
离群点/异常值(Outliers) 是偏离大部分值得数据。
数据重复是在数据集中出现多次的数据。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
学习笔记(01):Python数据清洗实战-课程导读

本次课程主要以真实的电商数据为基础，通过Python详细的介绍了数据分析中的数据清洗阶段各种技巧和方法。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。