自己在实际的工作和平时的学习中,深深地感受到数据和特征的重要性。正如“Garbage in, garbage out”(错进,错出)所说,对于机器学习中,数据和特征往往决定了结果的上限,模型、算法和优化策略则是逐步在逼近这个上限(注:该话的大意来自于《百面机器学习》这本书的第一章—特征工程)。自己查到了市面上关于介绍“特征工程”的书籍,从讲解的详细程度和实践性出发,选择了《特征工程入门与实践》这本书作为参考书籍。下面是我读完这本书后所总结的读书笔记。
1. 特征工程简介
特征工程的意义:在现实中很少有像机器学习竞赛和学术文献中那样干净的数据,在对原始数据的利用过程中,必须要将数据转化为更好地可以表现潜在问题的特征,才能更好地作为机器学习算法模型的输入,从而得到较为理想的模型性能。
特征工程的评估:(1)得到基准模型的性能;
(2)应用至少一种特征工程;
(3)对于每种特征工程,获得对应的性能指标;
(4)若指标的提升(相对于原模型的相对提升,用百分数表示)大于我们自己定义的阈值,则可以在机器学习流水线中应用该特征工程。
特征工程的评价指标:分类:准确率、召回率、F1、AUC、特定领域的性能指标(如搜索推荐中的指标);