百面机器学习特征工程

最新推荐文章于 2022-12-30 18:44:25 发布

不要关注我

最新推荐文章于 2022-12-30 18:44:25 发布

阅读量72

点赞数

分类专栏：机器学习面试文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/qq_40598006/article/details/113692852

版权

机器学习面试专栏收录该内容

23 篇文章 4 订阅

订阅专栏

Q1:为什么需要对数值型特征进行归一化？
A1:为了消除数据特征之间的量纲影响，我们需要对特征进行归一化处理，使得不同指标之间具有可比性。在实际应用中，通过梯度下降法求解的模型通常是需要归一化的，包括线性回归、逻辑回归、支持向量机、神经网络等模型。 x1和x2的更新速度变得更为一致，容易更快地通过梯度下降找到最优解。
Q2:在对数据进行预处理时，应该怎样处理类别型特征?
序号编码，独热编码，二进制编码，目标编码。
label encoding
特征存在内在顺序 (ordinal feature)
one hot encoding
特征无内在顺序，category数量 < 4
target encoding (mean encoding, likelihood encoding, impact encoding)
特征无内在顺序，category数量 > 4
beta target encoding
特征无内在顺序，category数量 > 4, K-fold cross validation
不做处理（模型自动编码）
CatBoost，lightgbm
参考：https://zhuanlan.zhihu.com/p/40231966
https://zhuanlan.zhihu.com/p/136174936
https://zhuanlan.zhihu.com/p/117230627
Q3：什么是组合特征？如何处理高维组合特征？
为了提高复杂关系的拟合能力，在特征工程中经常会把一阶离散特征两两组合，构成高阶组合特征。

特征降维其实从大的方面来讲有两种思路可以走：基于原有的特征进行降维，基于原有的特征进行筛选。第一种降维方法中，常见的有：PCA、LDA、SVD、稀疏自编码、word2vec等。第二种筛选的方法主要是对原有特征和目标label进行重要性分析，将那些不重要的特征进行剔除，比如使用gbdt、random forest等模型进行简单的模型训练，并输出特征的权重，继而进行筛选。
Q4:有哪些文本表示模型？它们各有什么优缺点？
词袋模型和N-gram模型;主题模型;词嵌入与深度学习模型。

词袋模型：整段文本以词为单位切分开，然后每篇文章可以表示成一个长向量，向量中的每一维代表一个单词，而该维对应的权重则反映了这个词在原文章中的重要程度。常用TF-IDF来计算权重。
N-gram模型：通常，可以将连续出现的n个词（n≤N）组成的词组（N-gram）也作为一个单独的特征放到向量表示中去，构成N-gram模型。
主题模型：用于从文本库中发现有代表性的主题（得到每个主题上面词的分布特性），并且能够计算出每篇文章的主题分布。
词嵌入是一类将词向量化的模型的统称，核心思想是将每个词都映射成低维空间（通常K=50～300维）上的一个稠密向量（Dense Vector。
Q5:谈到Word2Vec与LDA的区别和联系.
首先， LDA是利用文档中单词的共现关系来对单词按主题聚类，也可以理解为对“文档-单词”矩阵进行分解，得到“文档-
主题”和“主题-单词”两个概率分布。而Word2Vec其实是对“上下文-单词”矩阵进行学习，其中上下文由周围的几个单词组成，由此得到的词向量表示更多地融入了上下文共现的特征。也就是说，如果两个单词所对应的Word2Vec向量相似度较
高，那么它们很可能经常在同样的上下文中出现。

不要关注我

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
百面机器学习特征工程

Q1:为什么需要对数值型特征进行归一化？A1:为了消除数据特征之间的量纲影响，我们需要对特征进行归一化处理，使得不同指标之间具有可比性。在实际应用中，通过梯度下降法求解的模型通常是需要归一化的，包括线性回归、逻辑回归、支持向量机、神经网络等模型。 x1和x2的更新速度变得更为一致，容易更快地通过梯度下降找到最优解。Q2:在对数据进行预处理时，应该怎样处理类别型特征?序号编码，独热编码，二进制编码，目标编码。label encoding特征存在内在顺序 (ordinal featu
复制链接

扫一扫