看过李航老师的《统计学习方法》的同学都知道,机器学习(统计学习)的三要素为:模型、策略、和算法。其中,模型就是所要学习的条件概率分布或者决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。统计学习的目标在于从假设空间中选取最优模型。其中的两种选择最优模型的策略就是经验风险最小化和结构风险最小化。而算法负责根据策略求解出最优模型。
今天我尝试着给出《统计学习方法》第9页的“当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。”的简单证明,有不对的地方请大家指正。
首先给出经验风险最小化的公式:
其中,F是假设空间,f是模型,L是损失函数,n是观察到的样本数。