5、机器学习中的特征工程全解析

机器学习中的特征工程全解析

1. 机器学习基础概念回顾

在深入探讨特征工程之前,先回顾一些机器学习的基础概念。最初,我们从基本的数学定义入手,这有助于我们清晰地了解数据格式、标准以及函数类型。这种表示方法在技术出版物中广泛使用。

在处理多类问题时,我们讨论了如何利用工具无缝应对不同情况,以及何时选择何种策略更为合适。接着,引入了关于可学习性的基本理论概念,主要探讨了两个问题:如何判断一个问题是否能被算法学习,以及我们能达到的最大精度是多少。PAC学习是一个通用且强大的定义,可用于界定算法的边界。一个PAC可学习的问题不仅能被合适的算法处理,而且能在多项式时间内快速计算。

此外,还介绍了一些常见的统计学习概念,特别是MAP和最大似然学习方法。MAP方法试图选择后验概率最大的假设,而最大似然学习方法则关注似然性,寻找最符合数据的假设。这种策略在许多机器学习问题中广泛应用,因为它不受先验概率的影响,且在不同场景下易于实现。同时,我们将损失函数解释为能量函数,训练算法的目标是找到全局最小点,即误差表面的最深谷底。最后,简要介绍了信息理论,以及如何从信息增益和熵的角度重新解释我们的问题。每个机器学习方法都应致力于最小化从预测到恢复原始(期望)结果所需的信息量。

2. 特征工程概述

特征工程是机器学习流程的第一步,它涵盖了所有用于清理现有数据集、提高信噪比以及降低维度的技术。大多数算法对输入数据有很强的假设,使用原始数据集可能会对算法性能产生负面影响。而且,数据很少是各向同性的,通常有些特征决定了样本的总体行为,而一些相关的特征则不会提供额外的信息。因此,清晰了解数据集并掌握减少特征数量或选择最佳特征的常见算法非常重要。

3.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值