数据清洗和转换

数据清洗和转换

实际生产环境中机器学习比较耗时的一部分
大部分的机器学习模型所处理的都是特征,特征通常是输入变量所对应的可用于模型的 数值表示
大部分情况下 ,收集得到的数据需要经过预处理后才能够为算法所使用,预处理的操作 主要包括以下几个部分:

  • 数据过滤
  • 处理数据缺失
  • 处理可能的异常、错误或者异常值
  • 合并多个数据源数据
  • 数据汇总

对数据进行初步的预处理,需要将其转换为一种适合机器学习模型的表示形式, 对许多模型类型来说,这种表示就是包含数值数据的向量或者矩阵

  1. 将类别数据编码成为对应的数值表示(一般使用1-of-k方法)-dummy variable

  2. 从文本数据中提取有用的数据(一般使用词袋法或者TF-IDF)

  3. 处理图像或者音频数据(像素、声波、音频、振幅等<傅里叶变换>)

  4. 数值数据转换为类别数据以减少变量的值,比如年龄分段

  5. 对数值数据进行转换,比如对数转换

  6. 对特征进行归一化、标准化,以保证同一模型的不同输入变量的值域相同

  7. 对现有变量进行组合或转换以生成新特征,比如平均数 (做虚拟变量)不断尝试

类型特征转换之1-of-k(哑编码)

功能: 将非数值型的特征值(类别类型的)转换为数值型的数据
描述: 假设变量的取值有 k 个,如果对这些值用 1 到 k 编序,则可用维度为 k 的向量来表示一个变量的值。在这样的向量里,该取值所对应的序号所在的元素 为1,其他元素均为0.
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值