机器学习-特征工程

最新推荐文章于 2022-12-30 18:44:25 发布

hionechance

最新推荐文章于 2022-12-30 18:44:25 发布

阅读量92

点赞数

分类专栏：机器学习知识点文章标签：机器学习

本文链接：https://blog.csdn.net/Needlyr/article/details/119852362

版权

9 篇文章 0 订阅

订阅专栏

《百面机器学习》读书笔记

对于一个机器学习问题，数据和特征决定结果的上限，模型和算法的选择和优化是逼近这个上限。

特征工程：去除原始数据中的杂质和冗余，设计更高效的特征来刻画求解的问题和模型之间的关系。

数值类型归一化：线性函数归一化、零均值归一化（基于梯度下降优化的模型能够更快收敛）

类别特征编码：独热编码、序号编码、二进制编码。

组合特征：一般出现在类别特征编码的交叉组合，形成二阶及高阶特征（参数过多，使用矩阵分解求解）

文本表示模型：词袋模型、TF-IDF、主题模型、词嵌入模型

词袋模型+tfidf	每一维都是一个词或者N-Gram，该维的权重由TFIDF计算得到
主题模型	从文本库中计算每个主题上词的分布来发现有代表性的主题，并计算每篇文章的主题分布
词嵌入模型	将词映射为dense类型的向量（word2vec）

关注