数据挖掘小白的自存笔记-数据清洗该知道的都在这里

17 篇文章 0 订阅
13 篇文章 2 订阅

数据挖掘小白的自存笔记–数据清洗该知道的都在这里

本笔记目的

数据清洗很重要~看看不同于书本上查查网上各位大神的实操.

成果

说明:该文章详细的说明了,数据清洗的方法和类型.建议实际过程中不时拿出来翻一番.

思路篇:特征工程系列:数据清洗

alt

  • 数据清洗的一般流程:

      Step 1:格式内容清洗;
    
      Step 2:逻辑错误清洗;
    
      Step 3:异常数据清洗;
    
      Step 4:缺失数据清洗;(初学者最需关注)
    
      Step 5:非需求数据清洗。
    
常见缺失数据处理方法,详见原文
  • 1 删除元组

  • 2 不处理

  • 3 填充
    1)人工填充

    • 根据业务知识来进行人工填充。

    2)特殊值填充

    • 将空值作为一种特殊的属性值来处理,它不同于其他的任何属性值。如:所有的空值都用“unknown”填充。一般作为临时填充或中间过程。

    3)统计量填充

    • 平均值:适用数据符合均匀分布,用该变量的均值填补缺失值。
    • 中位数:适用数据存在倾斜分布的情况,采用中位数填补缺失值。
    • 众数:使用数据离散特征可使用众数进行填充缺失值

    4)模型预测填充

    • 使用待填充字段作为Label,没有缺失的数据作为训练数据,建立分类/回归模型,对待填充的缺失字段进行预测并进行填充

    5)插值法填充

    • 包括线性插值,随机插值,多重插补法,热平台插补,拉格朗日插值,牛顿插值等

    6)哑变量填充

    • 若变量是离散型,且不同值较少,可转换成哑变量,例如性别SEX变量,存在male,fameal,NA三个不同的值,可将该列转换成 IS_SEX_MALE、IS_SEX_FEMALE、IS_SEX_NA。若某个变量存在十几个不同的值,可根据每个值的频数,将频数较小的值归为一类’other’,降低维度。此做法可最大化保留变量的信息。
      各种插值的对比

实战技法篇0: 盘点Pandas 的100个常用函数

实战技法篇1:

  1. 使用sklearn进行数据清洗
  2. 使用sklearn进行数据清洗(总结)

实战技法篇2:Python数据清洗80%的工作量,看这篇

核心提取:
  • 1.了解数据API
    1)head(): 查看前n行数据,默认值是5
    2)info() :查看索引、数据类型和内存信息
    3)describe(): 查看每列数据的基本统计值,包括计数值、均值、标准差、 最小最大值、1/4、1/2、3/4分位数。
    4)value_counts(): 查看Series对象的唯一值
  • 2.常用字符串API
    1)lower()/upper(): 是把大小写转换
    2)replace(' ′ , ′ ′ ) : 替 换 特 定 字 符 。 这 里 把 列 中 的 美 元 符 号 ', '') :替换特定字符。这里把列中的美元符号 ,):去掉,替换成空字符
    3)strip() :去除字符串中的头尾空格、以及\n \t
    4)find()检测字符串中是否包含子字符串str,如果是,则返回该子字符串开始位置的索引值。
  • 3.数据操作
    1)drop_duplicates():函数删除重复数据
    2)fillna():填充函数[填充思看思路篇]
    3)strip() :去除字符串中的头尾空格、以及\n \t
    4)find()检测字符串中是否包含子字符串str,如果是,则返回该子字符串开始位置的索引值。

实战技法篇3:数据清洗,试试这 8套Python代码

说明:该链接里为8个帮助数据清洗的代码块(自定义函数)

核心提取:

1)多列转换至所需数据类型
2)统计多列缺失数据情况
3)strip() :去除字符串中的头尾空格、以及\n \t
4)find()检测字符串中是否包含子字符串str,如果是,则返回该子字符串开始位置的索引值。

实战案例篇4:数据清洗,试试这 8套Python代码

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值