特征工程的理解

特征工程:去除数据中的杂质和冗余,提取更有效的的特征。更刻画求解问题与预测模型之间的关系。
 

数据归一化(Normalization)

什么是归一化?

  1. 主要的对象是面向数值特征。
  2. 将数据同一到大致的数值空间。

为什么需要归一化?

  1. 优化方法中,如果数据的取值范围差距过大的化,算法在优化过程中,需要迭代更多次才能够找到最优解。(随机梯度下降的例子)

这个归一化方法的局限性?

  1. 梯队下降求解的模型需要归一化处理。(线性回归,逻辑回归,支持向量机,神经网络等模型)
  2. 但是对于一些决策树模型并不适用。主要是计算信息增益的方式和归一化无关。

归一化有哪些方法?

  1. 线性归一化(Min-Max Scaling):就是线性变换映射到【0,1】空间。
  2. 零均值归一化(Z-Score Normalization):将原始数据映射到均值为0,标准查为1的分布上。

线性归一化:

零均值归一化:

类别型特征:

类别型特征是什么?

  1. 男女,A,B,C,D这种按照类别划分。

为什么需要转换类别特征?

  1. 当然是因为很多算法没办法处理字符串信息,必须转化为数值类型才能够工作。

怎么转换数值类型呢?

序号编码。

  1. 大小关系编号。例如:高中低——>一二三(实际中需要根据具体的场景来设置转化的值)

One-hot:编码成稀疏向量的形式。

  1. 使用稀疏向量节省空间。
  2. 有时候特征维度比较高,需要降维。(高维度特征带来的问题,K邻近算法高维度特征很测量有效距离;逻辑回归模型参数的数量会随着维度增加而增加,容易过拟合;只有部分数据对预测,分类有用,配合特征选择来降维。高维度特征计算比较慢)

二进制编码

  1. 用二进制对类别映射,获得一个0、1向量,维度相对One-hot更少一点。

高维组合特征处理:

将离散的特征做组合,形成新特征。

怎么有效组合特征呢?

决策树寻找特征的方法。GBDT.

文本表示模型

词袋模型:

是什么?

  1. 忽略单词出现的顺序,将整段文本以单词为单位切分开,每篇文章可以表示为一个向量,向量的每一维度表示一个单词,权重反应了这个词在文章中的重要程度。

怎么计算权重?(TF-IDF)

词语之间会有相关性,这种划分方法并不是一个好的方法。

N-gram方法:

将词组作为单独的特征放到向量表里面。很多词语会有相似的含义,有时候会放到

 

 

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值