机器学习——特征工程(3分钟的超详细介绍)

1 什么是特征工程?

答:从原数据提取特征(能很好的描述数据)的过程,并且利用特征建立的模型可在未知数据上的性能表现达到最优。
业界流传着这样一句话:“数据和特征决定机器学习的上线,而模型和算法只是逼近这个上限而已。” 换句话说,特征越好、灵活性越强,构建的模型越简单、性能越出色。
在这里插入图片描述
简单来说,特征工程的处理一般包括:
· 特征提取
· 特征获取
· 特征处理
· 特征选择(特征较多时才用)
· 特征监控

2 数据预处理和特征处理

2.1 数据预处理
  1. 数据采集
    采集数据前,不如先清楚哪些数据对最后的预测结果使用帮助的,是否可采集到,
    在线上实时计算时数据获取是否快捷
  2. 数据清洗
    除去“脏”的数据,例如,某些商品的刷单数据
  3. 数据采样
    数据在采集、清洗过后、正负样本是不均匀的,故需进行数据采样
    方法有:随机采样,分层采样
2.2 特征处理
  1. 标准化:

将特征转换为标准正态分布

  1. 归一化:

将特征转换到同一纲量下,把数据映射到 [0,1], 或者 [a,b] 区间内
注:会改变原始距离、分布、和信息

  1. 定量特征二值化:

设定一个阈值,大于阈值的赋值为1,小于等于阈值的赋值为0

  1. 缺失值处理:

当数据存在缺失值时,用Pandas读取后特征均为NaN,表示数据缺失
可进行填充,均值替换等

  1. 数据转换:

常见的有:多项式、指数函数、对数函数的转换

3 特征降维

3.0 什么是特征降维?

特征降维指的是:采用某种映射方法,将高维向量空间的数据点映射到低维的空间中。
而在原始的高维空间中,数据存在冗余信息及噪音信息,会对模型识别造成误差,降低准准确率。
常用的方法有:特征选择,线性降维。

3.1 特征选择

方法:
* 过滤法:按照相关性或者发散性对各个特征进行评分,通过设定阈值或者选择阈值的个数来选择特征
* 包装法:根据目标函数每次选择若干个特征
* 嵌入法:使用算法和模型训练得到各个特征的权值系数,从而选择特征

3.2 线性降维
3.2.1 主成分分析法(PCA)

通过某种线性投影,将高维的数据映射到低维的空间中,并期望方差最大,从而达到使用
较小的数据维度保留较多的原始数据点特征的效果。(无监督的线性降维算法)

3.2.2 线性判别分析法(LDA)

使降维后的数据点尽可能地容易被区分(有监督的线性降维算法)

···
注:以上是关于特征工程的部分理论知识的介绍(本人逐字敲的,有什么想说滴评论区尽管提或私聊),具体的代码讲解稍后更新,热别欢迎友友们一起交流学习。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值