数据挖掘小白的自存笔记–数据清洗该知道的都在这里
本笔记目的
数据清洗很重要~看看不同于书本上查查网上各位大神的实操.
成果
说明:该文章详细的说明了,数据清洗的方法和类型.建议实际过程中不时拿出来翻一番.
思路篇:特征工程系列:数据清洗
-
数据清洗的一般流程:
Step 1:格式内容清洗; Step 2:逻辑错误清洗; Step 3:异常数据清洗; Step 4:缺失数据清洗;(初学者最需关注) Step 5:非需求数据清洗。
常见缺失数据处理方法,详见原文
-
1 删除元组
-
2 不处理
-
3 填充
1)人工填充- 根据业务知识来进行人工填充。
2)特殊值填充
- 将空值作为一种特殊的属性值来处理,它不同于其他的任何属性值。如:所有的空值都用“unknown”填充。一般作为临时填充或中间过程。
3)统计量填充
- 平均值:适用数据符合均匀分布,用该变量的均值填补缺失值。
- 中位数:适用数据存在倾斜分布的情况,采用中位数填补缺失值。
- 众数:使用数据离散特征可使用众数进行填充缺失值
4)模型预测填充
- 使用待填充字段作为Label,没有缺失的数据作为训练数据,建立分类/回归模型,对待填充的缺失字段进行预测并进行填充
5)插值法填充
- 包括线性插值,随机插值,多重插补法,热平台插补,拉格朗日插值,牛顿插值等
6)哑变量填充
- 若变量是离散型,且不同值较少,可转换成哑变量,例如性别SEX变量,存在male,fameal,NA三个不同的值,可将该列转换成 IS_SEX_MALE、IS_SEX_FEMALE、IS_SEX_NA。若某个变量存在十几个不同的值,可根据每个值的频数,将频数较小的值归为一类’other’,降低维度。此做法可最大化保留变量的信息。
实战技法篇0: 盘点Pandas 的100个常用函数
实战技法篇1:
实战技法篇2:Python数据清洗80%的工作量,看这篇
核心提取:
- 1.了解数据API
1)head(): 查看前n行数据,默认值是5
2)info() :查看索引、数据类型和内存信息
3)describe(): 查看每列数据的基本统计值,包括计数值、均值、标准差、 最小最大值、1/4、1/2、3/4分位数。
4)value_counts(): 查看Series对象的唯一值 - 2.常用字符串API
1)lower()/upper(): 是把大小写转换
2)replace(' ′ , ′ ′ ) : 替 换 特 定 字 符 。 这 里 把 列 中 的 美 元 符 号 ', '') :替换特定字符。这里把列中的美元符号 ′,′′):替换特定字符。这里把列中的美元符号去掉,替换成空字符
3)strip() :去除字符串中的头尾空格、以及\n \t
4)find()检测字符串中是否包含子字符串str,如果是,则返回该子字符串开始位置的索引值。 - 3.数据操作
1)drop_duplicates():函数删除重复数据
2)fillna():填充函数[填充思看思路篇]
3)strip() :去除字符串中的头尾空格、以及\n \t
4)find()检测字符串中是否包含子字符串str,如果是,则返回该子字符串开始位置的索引值。
实战技法篇3:数据清洗,试试这 8套Python代码
说明:该链接里为8个帮助数据清洗的代码块(自定义函数)
核心提取:
1)多列转换至所需数据类型
2)统计多列缺失数据情况
3)strip() :去除字符串中的头尾空格、以及\n \t
4)find()检测字符串中是否包含子字符串str,如果是,则返回该子字符串开始位置的索引值。