文章目录
机器学习之特征工程概览图
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已,所以机器学习项目大部分时间是在做数据处理和特征选择适配我们的模型,特征工程做的好能发挥原始数据的最大效力,往往能够使得算法的效果和性能得到显著的提升,有时能使简单的模型的效果比复杂的模型效果好。
特征工程本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用(当有大量特征难以取舍的时候)。
特征工程包括从原始数据中特征构建、特征提取、特征选择。数据预处理、数据清洗、筛选显著特征、摒弃非显著特征等等都非常重要。
从三方面来考虑:
- 特征构建: (从原始数据挖掘有意义特征)
- 特征提取:(如何获取这些特征)
- 特征选择:(根据特征的重要性进行特征筛选)
一、特征构建
特征构建是指从原始数据中人工的找出一些具有物理意义的特征。需要花时间去观察原始数据,思考问题的潜在形式和数据结构,对数据敏感性和机器学习实战经验能帮助特征构建。
特征提取与特征选择都是为了从原始特征中找出最有效的特征。它们之间的区别是特征提取强调通过特征转换的方式得到一组具有明显物理或统计意义的特征;而特征选择是从特征集合中挑选一组