机器学习——特征工程（3分钟的超详细介绍）

菜菜Jamison

已于 2022-10-17 18:41:41 修改

阅读量9.8k

点赞数 13

分类专栏：机器学习比赛必备知识文章标签：特征工程数据预处理特征降维 PCA LDA

于 2022-04-26 11:30:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_51370744/article/details/124421065

版权

机器学习比赛必备知识专栏收录该内容

3 篇文章 2 订阅

订阅专栏

目录

1 什么是特征工程？

答：从原数据提取特征（能很好的描述数据）的过程，并且利用特征建立的模型可在未知数据上的性能表现达到最优。
业界流传着这样一句话：“数据和特征决定机器学习的上线，而模型和算法只是逼近这个上限而已。” 换句话说，特征越好、灵活性越强，构建的模型越简单、性能越出色。
在这里插入图片描述
简单来说，特征工程的处理一般包括：
· 特征提取
· 特征获取
· 特征处理
· 特征选择（特征较多时才用）
· 特征监控

2 数据预处理和特征处理

2.1 数据预处理

数据采集
采集数据前，不如先清楚哪些数据对最后的预测结果使用帮助的，是否可采集到，
在线上实时计算时数据获取是否快捷
数据清洗
除去“脏”的数据，例如，某些商品的刷单数据
数据采样
数据在采集、清洗过后、正负样本是不均匀的，故需进行数据采样
方法有：随机采样，分层采样

2.2 特征处理

标准化：

将特征转换为标准正态分布

归一化：

将特征转换到同一纲量下，把数据映射到 [0,1], 或者 [a,b] 区间内
注：会改变原始距离、分布、和信息

定量特征二值化：

设定一个阈值，大于阈值的赋值为1，小于等于阈值的赋值为0

缺失值处理：

当数据存在缺失值时，用Pandas读取后特征均为NaN，表示数据缺失
可进行填充，均值替换等

数据转换：

常见的有：多项式、指数函数、对数函数的转换

3 特征降维

3.0 什么是特征降维？

特征降维指的是：采用某种映射方法，将高维向量空间的数据点映射到低维的空间中。
而在原始的高维空间中，数据存在冗余信息及噪音信息，会对模型识别造成误差，降低准准确率。
常用的方法有：特征选择，线性降维。

3.1 特征选择

方法：
* 过滤法：按照相关性或者发散性对各个特征进行评分，通过设定阈值或者选择阈值的个数来选择特征
* 包装法：根据目标函数每次选择若干个特征
* 嵌入法：使用算法和模型训练得到各个特征的权值系数，从而选择特征

3.2 线性降维

3.2.1 主成分分析法（PCA）

通过某种线性投影，将高维的数据映射到低维的空间中，并期望方差最大，从而达到使用
较小的数据维度保留较多的原始数据点特征的效果。（无监督的线性降维算法）

3.2.2 线性判别分析法（LDA）

使降维后的数据点尽可能地容易被区分（有监督的线性降维算法）

···
注：以上是关于特征工程的部分理论知识的介绍（本人逐字敲的，有什么想说滴评论区尽管提或私聊），具体的代码讲解稍后更新，热别欢迎友友们一起交流学习。

关注

13
点赞
踩
88

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。