机器学习中的监督学习与特征提取
1. 监督学习概述
机器学习的终极目标是开发出不仅在给定训练数据上表现良好,而且对与训练数据在统计上相似的任何新的未见过的样本也能有出色表现的模型。在实践中,学习到的模型的性能通常可以基于一个在之前步骤中未使用过的保留数据集进行经验评估。
这个保留测试集应与机器学习系统最终运行的实际条件相匹配,并且需要足够大以提供具有统计显著性的结果。此外,同一测试集不应反复用于评估同一学习方法,因为这可能导致过拟合。
经验评估虽然简单,但由于多种原因可能并不完全令人满意。如果可能的话,最好寻求关于学习方法是否以及为何收敛到良好解决方案,以及学习到的模型是否以及为何能很好地泛化到所有可能的未见过的数据的强有力的理论保证。严格的理论分析对于许多流行的机器学习方法来说具有挑战性,但它应作为机器学习中的一个关键研究目标得到进一步强调。
2. 常见监督学习方法案例
以下是一些常见的监督学习方法及其特点:
| 方法名称 | 组成要素 | 特点 | 应用场景 |
| — | — | — | — |
| 线性回归 | (线性模型) × (最小二乘误差) | 采用最简单的模型形式和最易处理的损失度量标准,有简单的闭式解,适用于小数据集,结果可直观解释 | 金融、经济和其他社会科学领域 |
| 岭回归 | (线性模型) × (最小二乘误差 + 最小 L2 范数) | 在线性回归公式基础上施加简单的 L2 范数最小化,有闭式解,可缓解线性回归中参数过多导致的估计问题,如过拟合 | 处理高维数据时防止过拟合 |
| LASSO | (线性模型) × (最小二乘误差 + 最小 L1 范数) ×
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



