越学越糊涂,忘了各个模块存在的初衷,也还是没完全弄清“损失函数、目标函数、经验风险、期望风险、结构风险、泛化、方差、偏差”等概念以及直观上的作用。李航说机器学习有三要素:模型、策略和算法(统计学方法=模型+策略+算法),这里主要就对“策略”这块做一个简短的概念上的小结,思路如下:先说框架再说作用以及朴素的理解。
1. 概念
损失函数:度量模型一次预测的好坏
风险函数:度量 平均意义下模型预测的好坏
经验损失/经验风险 = 关于训练集的平均损失
期望损失/期望风险 = 关于**联合分布(未知)**的平均损失
2. 框架
2.1 理想/标准状态:
假设函数 = 决策函数y = f(x) 或者 条件概率分布p(y|x)
学习目标 = 选择期望风险最小的模型
目标函数 = 风险函数(或期望损失)
2.2 实际情况:
目标函数 = 经验风险 + 正则项 = 结构风险———近似拟合———> 风险函数(或期望损失)
经验风险 = 有限数据集上的经验损失
结构风险 = 经验风险 + 正则项