数据挖掘小白的自存笔记-数据清洗该知道的都在这里

最新推荐文章于 2024-05-05 22:36:57 发布

一天天的就知道学习

最新推荐文章于 2024-05-05 22:36:57 发布

阅读量212

点赞数

分类专栏：数据挖掘自存笔记文章标签：人工智能数据挖掘 python

本文链接：https://blog.csdn.net/qq_35679701/article/details/105898467

版权

18 篇文章 0 订阅

订阅专栏

17 篇文章 0 订阅

订阅专栏

13 篇文章 2 订阅

订阅专栏

数据挖掘小白的自存笔记–数据清洗该知道的都在这里

数据清洗很重要~看看不同于书本上查查网上各位大神的实操.

说明:该文章详细的说明了,数据清洗的方法和类型.建议实际过程中不时拿出来翻一番.

alt

数据清洗的一般流程：

  Step 1：格式内容清洗；

  Step 2：逻辑错误清洗；

  Step 3：异常数据清洗；

  Step 4：缺失数据清洗；(初学者最需关注)

  Step 5：非需求数据清洗。

1.了解数据API
1）head(): 查看前n行数据，默认值是5
2）info() :查看索引、数据类型和内存信息
3）describe(): 查看每列数据的基本统计值，包括计数值、均值、标准差、最小最大值、1/4、1/2、3/4分位数。
4）value_counts(): 查看Series对象的唯一值
2.常用字符串API
1）lower()/upper()：是把大小写转换
2）replace(' $^{'},^{''}) : 替换特定字符。这里把列中的美元符号$ 去掉，替换成空字符
3）strip() :去除字符串中的头尾空格、以及\n \t
4）find()检测字符串中是否包含子字符串str，如果是，则返回该子字符串开始位置的索引值。
3.数据操作
1）drop_duplicates():函数删除重复数据
2）fillna():填充函数[填充思看思路篇]
3）strip() :去除字符串中的头尾空格、以及\n \t
4）find()检测字符串中是否包含子字符串str，如果是，则返回该子字符串开始位置的索引值。

说明:该链接里为8个帮助数据清洗的代码块(自定义函数)

1）多列转换至所需数据类型
2）统计多列缺失数据情况
3）strip() :去除字符串中的头尾空格、以及\n \t
4）find()检测字符串中是否包含子字符串str，如果是，则返回该子字符串开始位置的索引值。

关注