![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
特征
数据清洗等
PasPerCon
不积跬步,无以至千里。
展开
-
《特征工程入门与实践》读书笔记一
自己在实际的工作和平时的学习中,深深地感受到数据和特征的重要性。正如“Garbage in, garbage out”(错进,错出)所说,对于机器学习中,数据和特征往往决定了结果的上限,模型、算法和优化策略则是逐步在逼近这个上限(注:该话的大意来自于《百面机器学习》这本书的第一章—特征工程)。自己查到了市面上关于介绍“特征工程”的书籍,从讲解的详细程度和实践性出发,选择了《特征工程入...原创 2019-08-23 23:16:22 · 2294 阅读 · 0 评论 -
《特征工程入门与实践》读书笔记二
续接《特征工程入门与实践》读书笔记一的内容。 4. 特征增强 本节将介绍两方面的问题:定型数据的缺失值问题和定量数据的归一化/标准化问题。 (1)缺失值 在实际中,我们应该尽可能地挖掘出获得的数据集的信息。当数据集的缺失值占比较多时,应该进行填充,而且应该保证线下训练和线上实施的策略是一致的。 首先,我们需要识别缺失值。对于公开的数据集,我们需...原创 2019-08-24 12:49:11 · 372 阅读 · 0 评论 -
《特征工程入门与实践》读书笔记三
介绍读书笔记二之后的内容。文中涉及的代码均来自于《特征工程入门与实践》的对应章节的内容。 7. 特征转换 和特征选择相比,区别在于:特征选择得到的特征属于原始数据集中的特征集合,但是特征转换得到的特征并不是如此。 本部分将介绍3部分的内容:(1)PCA;(2)LDA;(3)机器学习流水线。下面将对其进行介绍。 (1)PCA 原理:最大化数据的方差...原创 2019-09-04 19:24:23 · 673 阅读 · 0 评论