百面机器学习(一)--特征工程

最新推荐文章于 2021-04-13 12:06:25 发布

YF2664

最新推荐文章于 2021-04-13 12:06:25 发布

阅读量169

点赞数

分类专栏：百面机器学习文章标签：机器学习

百面机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

(1)对于数值型特征：

--假如特征之间的数值差别较大，那么算法在进行分析的时候，会更容易倾向数值较大的特征，即分配更大的权重。

--因此，需要进行特征归一化处理，使各个特征的数值范围处于同一区间。

--常用的归一化方法有两种：线性函数归一化与零均值归一化；

Note：在实际应用中，通过梯度下降法求解的模型才通常是需要进行归一化的，包括线性回归、逻辑回归、支持向量机、神经网络等模型，但对于决策树模型并不使用。

(2)对于类别型特征：

--由于类别型特征的原始输入通常是字符串形式，而能直接处理字符串形式输入的模型比较少，因此对逻辑回归、支持向量机等模型来说，通常都需要处理转换成数值型特征才能正确工作。

--有以下三种方式进行转换：

序号编码：对于具有大小关系的数据根据其排序关系进行编码；
独热编码：通常用于处理不具有大小关系的特征。例如，血型(A型血，B型血，AB型血，O型血)，独热编码可以将血型表示成一个4维稀疏向量，A型血表示为(1, 0, 0, 0)，其余的以此类推。即对于某一种特征的所有取值，将其表示成相应维度的稀疏向量，取哪个值就表示为1，其余值表示为0。
二进制编码：二进制编码主要分为两步，先用序号编码给每个类别赋予一个类别ID，然后将类别ID对应的二进制编码作为结果。

(3)组合特征：

--为了提高复杂关系的拟合能力，在特征工程中经常会把一阶离散特征进行组合，构成高阶组合特征。

Note：特征的组合需要一定的经验，如果只是简单地进行组合，容易出现参数过多、过拟合等问题，而且并不是所有的特征组合都是有意义的。

--如何有效地找到组合特征：有一种基于决策树的特征组合寻找方法，构建决策树结束后，每一条从根节点到叶节点的路径都可以看成一种特征组合的方式。

--如何有效地构建决策树呢？可以采用梯度提升决策树，该方法的思想是每次都在之前构建的决策树的残差上构建下一棵决策树。

(4）图像数据不足时的处理方法：

--训练数据的不足带来的直接后果之一就是模型从原始数据中获取的信心会比较少，无法取得较好的效果。具体到图像分类任务上，训练数据不足带来的问题主要表现在过拟合方面。

--对于过拟合的处理方法大致分为两类:

基于模型的方法，主要采用降低过拟合风险的措施，包括简化模型(如将非线性模型简化为线性模型)、添加约束项以缩小假设空间(如L1、L2正则项)、集成学习、Dropout超参数等；
基于数据的方法，主要是通过数据增强(Data Augmentation)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。