机器学习系列--2、机器学习数据清理

1、数据预处理

主要包括

特征提取

处理缺失数据

数据定标

数据转换: One-Hot encoding, One/Two/MultiGram, Bag of words, 取对数

•1、特征提取:

  • a、以基于图像进行行人检测为例, 需要提取图像的梯度直方图
  • b、以自然语言处理为例, 需要提取文字的n-gram,其实就是将文字转换成数字形式,然后通过计算句子各个单词同时出现的概率(通过历史训练的数据得到各个单词间两两同时存在的概率)

使用条件概率公式p(S)=p(w1​w2​⋯wn​)=p(w1​)p(w2​∣w1​)⋯p(wn​∣wn−1​wn−2​)计算概率值,具体看下面链接内容

如下博客对n-gram描述得比较细致:https://blog.csdn.net/songbinxu/article/details/80209197

2、数据预处理之处理缺失数据

Titanic数据集为例, 部分乘客的年龄, 80%乘客的仓位有缺失

处理方式:

1. 使用均值或者中间值(median)代替数值类型(年龄)的缺失数据

2. 使用众数(mode)代替分类数据(性别)的缺失数据

3. 使用聚类的方式, 找到相似的数据点, 使用这些相似数据点的均值等替代缺失数据

4. 如果某一个特征的数据丢失率太高, 直接丢弃这个特征的数据也许更好

3、数据预处理之数据定标

1)

Normalization/Min-Max-Scaler (归一化)

 

Standardization (标准化)

2)也可以使用降维处理,或者通过坐标轴向量转换

经过转换之后就可以比较清晰直观观测到数据间的区别

4、数据转换: One-Hot encoding

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值