葫芦书笔记----特征工程

最新推荐文章于 2023-10-08 14:25:46 发布

沃·夏澈德

最新推荐文章于 2023-10-08 14:25:46 发布

阅读量396

点赞数 1

分类专栏：葫芦书笔记文章标签：特征工程机器学习面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aaalswaaa1/article/details/108857694

版权

葫芦书笔记专栏收录该内容

13 篇文章 0 订阅

订阅专栏

为什么需要对数值类型的特征做归一化？

一句话速记：为了消除数据特征至今啊的量纲影响，使得不同指标之间具有可比性。

详细版：为了将所有特征都统一到一个大致相同的数值区间内。常用方法有线性函数归一化、零均值归一化。归一化的好处有：在学习率相同的情况下，更容易通过梯度下降找到最优解。但是数据归一化不是万能的，它对于决策树模型并不适用，以为决策树在进行节点分裂时是根据数据集D关于特征x的信息增益比，而信息增益比和特征x是否经过归一化是无关的，因此归一化并不会改变特征上的信息x增益.

在对数据进行预处理时，应该怎样处理类别型特征？

类别型特征：主要指性别（男，女）这样只在有限选项内取值的特征。

一句话速记：序号编码、独热编码、二进制编码等。

详细版：序号编码通常用于处理类别间具有大小关系的数据。如成绩可分为高中低，并且存在高》中》低的排序关系。序号编码会按照大小关系对类别型特征赋予一个数值id，例如高为3，中2，低1，转换后依旧保留了大小关系。
独热编码通常用于处理类别间不具有大小关系的特征，对于类别取值较多的情况下使用独热编码需注意以下问题：1.使用稀疏向量来节省空间。 2. 配合特征选择来降低维度。
二进制编码，本质是利用二进制对ID进行哈希映射，最终得到0/1特征向量，且维度少于独热编码，节省了存储空间。

什么是组合特征？如何处理高维组合特征？

速记：一阶离散特征两两组合，构成高阶组合特征。对于高维组合特征，可以用低维向量表示。

详细：以逻辑回归为例，假设数据的特征向量为 $X=(x_1,x_2,...,x_k)$ ,则有，

$Y=sigmoid(\sum_i\sum_jw_{ij}<x_i,x_j>)$
其中<xi,xj>表示xi和xj的组合特征，wij的维度等于 $|x_i|\cdot |x_j|$ ,|xi|,|xj|分别代表第i各特征和第j个特征不同取值的个数。
在高维时，可以用k维的低维向量表示（k<<m,k<<n）

$Y=sigmoid(\sum_i\sum_jw_{ij}<x_i,x_j>))$

其中 $w_{ij}=x^`_i\cdot x^`_j$ ， $x^`_i,x^`_j$ 分别表示xi和xj对于的低维向量。其实这样等价于矩阵分解。

如何有效地找到组合特征？

参照决策树的节点选取即可。

文本表示模型有哪些？它们各有什么优缺点？

速记：词袋模型（易得，信息较少，没有位置信息）、N-gram模型（较易得，无法解决一词多义，无法识别两个词是否具有相同的主题）、主题模型（可得到每个词与每个主题的相关性，主题个数不好确定）。

Word2Vec是如何工作的？它和LDA有什么区别与联系？

速记：CBOW与Skip-gram。区别：在于模型本身，主题模型是一种基于概率图模型的生成时模型，词嵌入模型一般表达为神经网络的形式。联系：某种意义上说，词嵌入的每一维其实可以理解成一个主题。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
葫芦书笔记----特征工程

为什么需要对数值类型的特征做归一化？一句话速记：为了消除数据特征至今啊的量纲影响，使得不同指标之间具有可比性。详细版：为了将所有特征都统一到一个大致相同的数值区间内。常用方法有线性函数归一化、零均值归一化。归一化的好处有：在学习率相同的情况下，更容易通过梯度下降找到最优解。但是数据归一化不是万能的，它对于决策树模型并不适用，以为决策树在进行节点分裂时是根据数据集D关于特征x的信息增益比，而信息增益比和特征x是否经过归一化是无关的，因此归一化并不会改变特征上的信息x增益.在对数据进行预处理时.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。