昨天有些私事,今天补过。
统计学习方法 李航:
Day 1:
统计学习主要是由:监督学习(supervised learning)、非监督学习、半监督学习、强化学习组成,主要应用监督学习。
监督学习,主要由数据,模型、算法组成。给定已知的输入与输出,通过其统计规律,得出其相关关系,再预测未知,即为监督学习。
P(x,y)联合概率分布,统计其分布规律,y=f(x)决策函数。
监督学习是利用训练数据集给出一个模型,再用模型对数据进行预测,由于训练数据集是由人工给出的,所以称为监督学习。
统计学习的目标在于从假设空间中选取最优模型。
损失函数(代价函数)用于衡量预测错误的程度。0-1损失,平均损失、绝对损失等。
经验损失是由于学习数据过程中积累的经验:
经验风险进行矫正:经验风险最小化,结构风险最小化。
可能会有由于模型结构复杂而造成损失过高的情况,为此引入结构风险:
从而由这两种风险定义,监督学习就定义为:
经验风险与结构风险最小的最优问题,这时,经验或结构风险函数是最优化的目标函数。