百面机器学习(一)--特征工程

(1)对于数值型特征

--假如特征之间的数值差别较大,那么算法在进行分析的时候,会更容易倾向数值较大的特征,即分配更大的权重。

--因此,需要进行特征归一化处理,使各个特征的数值范围处于同一区间。

--常用的归一化方法有两种:线性函数归一化零均值归一化

Note:在实际应用中,通过梯度下降法求解的模型才通常是需要进行归一化的,包括线性回归、逻辑回归、支持向量机、神经网络等模型,但对于决策树模型并不使用。

(2)对于类别型特征

--由于类别型特征的原始输入通常是字符串形式,而能直接处理字符串形式输入的模型比较少,因此对逻辑回归、支持向量机等模型来说,通常都需要处理转换成数值型特征才能正确工作。

--有以下三种方式进行转换:

  1. 序号编码:对于具有大小关系的数据根据其排序关系进行编码;
  2. 独热编码:通常用于处理不具有大小关系的特征。例如,血型(A型血,B型血,AB型血,O型血),独热编码可以将血型表示成一个4维稀疏向量,A型血表示为(1, 0, 0, 0),其余的以此类推。即对于某一种特征的所有取值,将其表示成相应维度的稀疏向量,取哪个值就表示为1,其余值表示为0。
  3. 二进制编码:二进制编码主要分为两步,先用序号编码给每个类别赋予一个类别ID,然后将类别ID对应的二进制编码作为结果。

(3)组合特征:

--为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征进行组合,构成高阶组合特征。

Note:特征的组合需要一定的经验,如果只是简单地进行组合,容易出现参数过多、过拟合等问题,而且并不是所有的特征组合都是有意义的。

--如何有效地找到组合特征:有一种基于决策树的特征组合寻找方法,构建决策树结束后,每一条从根节点到叶节点的路径都可以看成一种特征组合的方式

--如何有效地构建决策树呢?可以采用梯度提升决策树,该方法的思想是每次都在之前构建的决策树的残差上构建下一棵决策树。

(4)图像数据不足时的处理方法

--训练数据的不足带来的直接后果之一就是模型从原始数据中获取的信心会比较少,无法取得较好的效果。具体到图像分类任务上,训练数据不足带来的问题主要表现在过拟合方面。

--对于过拟合的处理方法大致分为两类:

  1. 基于模型的方法,主要采用降低过拟合风险的措施,包括简化模型(如将非线性模型简化为线性模型)、添加约束项以缩小假设空间(如L1、L2正则项)、集成学习、Dropout超参数等;
  2. 基于数据的方法,主要是通过数据增强(Data Augmentation)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值