特征工程

特征工程(Feature Engineering)

Connected to:
Anomaly detection
Reinforcement learning
Structured prediction
异常检测 强化学习 结构化预测

特征工程是利用数据领域的知识来创建特征的过程,该过程使得机器学习的算法可以运作。

特征工程是机器学习应用的基础,而且既困难又昂贵。 自动特征学习可以消除对手动特征工程的需求。

特征工程是一个非正式的话题,但它在应用机器学习中被认为是必不可少的。

Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering.

— Andrew Ng, Machine Learning and AI via Brain simulations[1]

特征(Features)

特征是由所有要进行分析或预测的独立单元共享的属性或属性。 任何属性都可以是一个特征,只要它对模型有用。

除了作为属性之外,功能的目的在问题的背景下更容易理解。 特征是解决问题时可能有帮助的一个特征。

特征的重要性(Importance of features)

数据中的特征对于您使用的预测模型非常重要,并且会影响您将要实现的结果。 特征的质量和数量对模型的好坏有很大的影响[3]。

你可以说特征越好,结果就越好。 这并非完全正确,因为所取得的成果还取决于模型和数据,而不仅仅是所选的功能。 也就是说,选择正确的功能仍然非常重要。 更好的功能可以产生更简单和更灵活的模型,并且它们通常会产生更好的结果。[2]

特征工程的步骤(The process of feature engineering)

  1. Brainstorming or Testing features;
  2. Deciding what features to create;
  3. Creating features;
  4. Checking how the features work with your model;
  5. Improving your features if needed;
  6. Go back to brainstorming/creating more features until the work is done.


1. 头脑风暴或测试功能;
2. 确定要创建的功能;
3. 创建功能;
4. 检查功能如何与您的模型配合使用;
5. 根据需要改进你的功能;
6. 回到头脑风暴/创造更多的功能,直到工作完成。

功能相关性(Feature relevance)

根据一个特征,它可能是强相关的(具有任何其他特征中不存在的信息),相关的,弱相关的(其他特征包括的一些信息)或不相关的。 创建很多功能非常重要。 即使它们中的一些不相关,你也承担不起其余的失误。 之后,可以使用特征选择以防止过度配合。[8]

特征爆炸Feature explosion

特征爆炸可能由特征组合或特征模板引起,这导致特征总数的快速增长。

功能模板 - 实现功能模板,而不是编码新功能
特征组合 - 不能由线性系统表示的组合
有几个解决方案可以帮助阻止特征爆炸,例如:正则化,核方法,特征选择。[9]

自动特征工程Automated Feature Engineering

特征工程自动化已成为学术界研究的一个新兴课题。 2015年,麻省理工学院的研究人员提出了Deep Feature Synthesis算法,并在其在线数据科学竞赛中展现了其有效性,在该竞赛中击败了906个人力团队中的615个[10] [11]。 Deep Feature Synthesis作为一个名为Featuretools的开源库提供。 其他研究人员,包括IBM的OneBM [12]和伯克利的ExploreKit [13]也接下了这项工作。 IBM的研究人员称,功能工程自动化“帮助数据科学家减少数据探索时间,使他们能够在短时间内尝试和错误地提出许多想法;另一方面,它使非熟悉数据科学的非专家能够快速 只需花费很少的精力,时间和成本从数据中提取价值。“

商业工具已经从包括H20.ai [14]和Feature Labs [15]在内的新型机器学习重点初创公司涌现出来。

原文

参考原文

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值