百面机器学习 特征工程

Q1:为什么需要对数值型特征进行归一化?
A1:为了消除数据特征之间的量纲影响, 我们需要对特征进行归一化处理, 使得不同指标之间具有可比性。在实际应用中, 通过梯度下降法求解的模型通常是需要归一化的, 包括线性回归、 逻辑回归、 支持向量机、 神经网络等模型。 x1和x2的更新速度变得更为一致, 容易更快地通过梯度下降找到最优解。
Q2:在对数据进行预处理时, 应该怎样处理类别型特征?
序号编码,独热编码,二进制编码,目标编码
label encoding
特征存在内在顺序 (ordinal feature)
one hot encoding
特征无内在顺序,category数量 < 4
target encoding (mean encoding, likelihood encoding, impact encoding)
特征无内在顺序,category数量 > 4
beta target encoding
特征无内在顺序,category数量 > 4, K-fold cross validation
不做处理(模型自动编码)
CatBoost,lightgbm
参考:https://zhuanlan.zhihu.com/p/40231966
https://zhuanlan.zhihu.com/p/136174936
https://zhuanlan.zhihu.com/p/117230627
Q3:什么是组合特征? 如何处理高维组合特征?
为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组 合,构成高阶组合特征。

特征降维其实从大的方面来讲有两种思路可以走:基于原有的特征进行降维,基于原有的特征进行筛选。第一种降维方法中,常见的有:PCA、LDA、SVD、稀疏自编码、word2vec等。第二种筛选的方法主要是对原有特征和目标label进行重要性分析,将那些不重要的特征进行剔除,比如使用gbdt、random forest等模型进行简单的模型训练,并输出特征的权重,继而进行筛选。
Q4:有哪些文本表示模型? 它们各有什么优缺点?
词袋模型和N-gram模型;主题模型;词嵌入与深度学习模型。

  1. 词袋模型:整段文本以词为单位切分开,然后每篇文章可以表示成一个长向量, 向量中的每一维代表一个单词, 而该维对应的权重则反映了这个词在原文章中的重要程度。 常用TF-IDF来计算权重。
  2. N-gram模型:通常, 可以将连续出现的n个词(n≤N) 组成的词组(N-gram) 也作为一个单独的特征放到向量表示中去, 构成N-gram模型。
  3. 主题模型:用于从文本库中发现有代表性的主题(得到每个主题上面词的分布特性) , 并且能够计算出每篇文章的主题分布。
  4. 词嵌入是一类将词向量化的模型的统称, 核心思想是将每个词都映射成低维空间(通常K=50~300维) 上的一个稠密向量(Dense Vector。
    Q5:谈到Word2Vec与LDA的区别和联系.
    首先, LDA是利用文档中单词的共现关系来对单词按主题聚类, 也可以理解为对“文档-单词”矩阵进行分解, 得到“文档-
    主题”和“主题-单词”两个概率分布。 而Word2Vec其实是对“上下文-单词”矩阵进行学习, 其中上下文由周围的几个单词组成, 由此得到的词向量表示更多地融入了上下文共现的特征。 也就是说, 如果两个单词所对应的Word2Vec向量相似度较
    高, 那么它们很可能经常在同样的上下文中出现。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值