特征工程的理解

最新推荐文章于 2021-12-22 14:18:19 发布

不吃西瓜霜含片

最新推荐文章于 2021-12-22 14:18:19 发布

阅读量242

点赞数

分类专栏：算法工程师知识理解

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40137923/article/details/89892647

版权

算法工程师知识理解专栏收录该内容

1 篇文章 0 订阅

订阅专栏

特征工程：去除数据中的杂质和冗余，提取更有效的的特征。更刻画求解问题与预测模型之间的关系。

数据归一化（Normalization）

什么是归一化？

主要的对象是面向数值特征。
将数据同一到大致的数值空间。

为什么需要归一化？

优化方法中，如果数据的取值范围差距过大的化，算法在优化过程中，需要迭代更多次才能够找到最优解。（随机梯度下降的例子）

这个归一化方法的局限性？

梯队下降求解的模型需要归一化处理。（线性回归，逻辑回归，支持向量机，神经网络等模型）
但是对于一些决策树模型并不适用。主要是计算信息增益的方式和归一化无关。

归一化有哪些方法？

线性归一化（Min-Max Scaling)：就是线性变换映射到【0，1】空间。
零均值归一化（Z-Score Normalization）：将原始数据映射到均值为0，标准查为1的分布上。

线性归一化：

零均值归一化：

类别型特征：

类别型特征是什么？

男女，A，B，C，D这种按照类别划分。

为什么需要转换类别特征？

当然是因为很多算法没办法处理字符串信息，必须转化为数值类型才能够工作。

怎么转换数值类型呢？

序号编码。

大小关系编号。例如：高中低——>一二三（实际中需要根据具体的场景来设置转化的值）

One-hot：编码成稀疏向量的形式。

使用稀疏向量节省空间。
有时候特征维度比较高，需要降维。（高维度特征带来的问题，K邻近算法高维度特征很测量有效距离；逻辑回归模型参数的数量会随着维度增加而增加，容易过拟合；只有部分数据对预测，分类有用，配合特征选择来降维。高维度特征计算比较慢）

二进制编码

用二进制对类别映射，获得一个0、1向量，维度相对One-hot更少一点。

高维组合特征处理：

将离散的特征做组合，形成新特征。

怎么有效组合特征呢？

决策树寻找特征的方法。GBDT.

文本表示模型

词袋模型：

是什么？

忽略单词出现的顺序，将整段文本以单词为单位切分开，每篇文章可以表示为一个向量，向量的每一维度表示一个单词，权重反应了这个词在文章中的重要程度。

怎么计算权重？（TF-IDF）

词语之间会有相关性，这种划分方法并不是一个好的方法。

N-gram方法：

将词组作为单独的特征放到向量表里面。很多词语会有相似的含义，有时候会放到

不吃西瓜霜含片

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。