特征工程与数据预处理

最新推荐文章于 2021-10-22 16:36:48 发布

holdcup

最新推荐文章于 2021-10-22 16:36:48 发布

阅读量1.7k

点赞数 1

分类专栏： kaggle 文章标签：机器学习数据挖掘特征提取特征选择

本文链接：https://blog.csdn.net/c295655244/article/details/78786516

版权

特征工程是机器学习中的关键步骤，涉及特征选择、数据预处理等。数据预处理包括无量纲化、二值化、缺失值处理和数据变换。特征选择有Filter、Wrapper和Embedded方法，如方差选择、相关系数法、卡方检验等。降维方法如PCA和LDA用于减少计算量并保持信息。

摘要由CSDN通过智能技术生成

特征工程与数据预处理

1. 特征工程定义

通常而言，特征选择是指选择获得相应模型和算法最好性能的特征集。数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。
从这个概念可以看出，特征工程其实是一个如何展示和表现数据的问题，在实际工作中需要把数据以一种“良好”的方式展示出来，使得能够使用各种各样的机器学习模型来得到更好的效果。如何从原始数据中去除不佳的数据，展示合适的数据就成为了特征工程的关键问题

2. 数据预处理

通过特征提取，我们能得到未经处理的特征，这时的特征可能有以下问题：

不属于同一量纲：即特征的规格不一样，不能够放在一起比较。无量纲化可以解决这一问题。
信息冗余：对于某些定量特征，其包含的有效信息为区间划分，例如学习成绩，假若只关心“及格”或不“及格”，那么需要将定量的考分，转换成“1”和“0”表示及格和未及格。二值化可以解决这一问题。
定性特征不能直接使用：某些机器学习算法和模型只能接受定量特征的输入，那么需要将定性特征转换为定量特征。最简单的方式是为每一种定性值指定一个定量值，但是这种方式过于灵活，增加了调参的工作。通常使用哑编码的方式将定性特征转换为定量特征：假设有N种定性值，则将这一个特征扩展为N种特征，当原始特征值为第i种定性值时，第i个扩展特征赋值为1，其他扩展特征赋值为0。哑编码的方式相比直接指定的方式，不用增加调参的工作，对于线性模型来说，使用哑编码后的特征可达到非线性的效果。
缺失值：缺失值需要补充。
信息利用率低：不同的机器学习算法和模型对数据中信息的利用是不同的，之前提到在线性模型中，使用对定性特征哑编码可以达到非线性的效果。类似地，对定量变量多项式化，或者进行其他的转换，都能达到非线性的效果。

无量纲化

无量纲化使不同规格的数据转换到同一规格。常见的无量纲化方法有标准化和区间缩放法。

标准化
标准化需要计算特征的均值和标准差，公式表达为：

最低0.47元/天解锁文章

holdcup

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
特征工程与数据预处理

特征工程与数据预处理1. 特征工程定义通常而言，特征选择是指选择获得相应模型和算法最好性能的特征集。数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。从这个概念可以看出，特征工程其实是一个如何展示和表现数据的问题，在实际工作中需要把数据以一种“良好”的方式展示出来，使得能够使用各种各样的机器学习模型来得到更好的效果。如何从原始数据中去除不佳的数据，展示合适的数据就成为了特征工程的
复制链接

扫一扫

专栏目录