01_机器学习相关笔记——特征工程(1)

01_机器学习相关笔记——特征工程(1)

  1. 没有充足的数据、合适的特征,再强大的模型结构也无法得到满意的输出。(Garbage in, garbage out)
  2. 对于一个机器学习问题,数据和特征往往决定了结果的上限,而模型、算法的选择及优化则是逐步接近这个上限。
  3. 特征工程,对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。(特征工程是表示和展现数据的过程。在实际工作中,旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系)
  4. 特征归一化,消除数据特征之间量纲的影响,使得不同指标之间具有可比性。(模型结果会倾向于数值差别较大的题中特征)
  5. 数值类型的特征归一化方法:线性函数归一化、零均值归一化。
  6. 线性函数归一化,对原始数据进行线性变换,使得结果映射到0-1的范围,实现对原始数据的等比缩放。Xnorm = (X - Xmin) / (Xmax - Xmin)
  7. 零均值归一化,将原始数据映射到均值为0,标准差为1的分布上,z = (x - µ) / σ。μ为均值,σ为标准差。x - μ可以使得原始数据x关于原点对称,除以σ会约束原始数据在各个维度上的值在相同的区间内。(方差为标准差的平方,方差表示随机变量与均值的偏离程度,因此偏离大的会除以较大的数值,偏离小的会除以较小的数值,使得原始数据在各个维度上的值在相同的区间内)
  8. 数值型特征归一化的重要性,假设有两个不同取值范围的数值型特征,在学习速率相同的情况下,两种数值类型的更新速度会有差异,导致需要较多的迭代更新才能找到较为合适的解,如将两种数值类型归一化到相同的数值区间后,更新速度更为一致,可以经过较少的迭代更新就可以找到较为合适的解。
  9. 类别型特征,只在有限选项内取值的特征。
  10. 处理类别型特征的方法,序号编码、独热编码、二进制编码
    注:笔记内容来源于《百面机器学习》
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值