第一章统计学习方法概论 —— 第1~3节统计学习及监督学习的简介、损失函数及风险函数的公式化表达

最新推荐文章于 2022-12-02 11:05:44 发布

小灰兔呼噜噜

最新推荐文章于 2022-12-02 11:05:44 发布

阅读量1.9k

点赞数

分类专栏：统计（机器）学习文章标签：损失函数代价函数经验风险风险函数过拟合

本文链接：https://blog.csdn.net/l281865263/article/details/44568387

版权

统计（机器）学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

关于统计学习方法的知识，参考书《统计学习方法》，李航著，清华大学出版社。

所有章节的符号表示、公式表示都是统一化的。

第一章统计学习方法概论

第一节统计学习

一、概念

所谓统计学习，指的是基于已知数据构建统计模型，从而对未知数据进行预测。

二、分类

监督学习（supervised）、半监督学习（semi-supervised）、非监督学习（unsupervised）和强化学习（reinforcement learning）等。

三、统计学习的三要素：

1、模型（model）

从给定的一组已知数据，学习得到一个适合这组数据的模型。假设要学习的模型属于某个函数集合，这个集合成为假设空间（hypothesis space）。

2、策略（strategy）

在假设空间中，我们要从中选取一个最优的模型，以使它对已知训练数据和未知测试数据，在给定的评价准则（evaluation criterion）下有最优的表现。那么这个选择最优模型的准则，就叫做策略，通常具象为损失函数、风险函数、目标函数等等。

3、算法（algorithm）

有了选择最优模型的准则以后，我们要通过优化方法的手段，找到这个最优模型。这个优化的过程就是算法的体现。

第二节监督学习

本书着重在于介绍监督学习。所以这一节介绍监督学习的一些基本概念。

一、概念：

1、输入空间（特征空间），输出空间，这两个概念比较简单，此处略。

2、假设空间：

上面一节我们已经描述了什么叫做假设空间。那么在监督学习中，这个假设空间，其实就是表示从输入到输出的所有映射的集合。

监督学习的模型可以是概率模型或非概率模型，由条件概率分布P(Y|X)或决策函数（decision function）Y=f(X)表示，描述了输入与输出随机变量之间的映射关系，随具体学习方法而定。对具体的输入进行相应的输出预测时，写作 P(y|x) 或 y=f(x)（大小写不同而已。大写通常表示特征空间或输入输出空间，小写则通常表示具体的输入实例和具体的输出预测）

二、分类：

包括回归、分类、标注三种问题

回归（regression）：输入与输出均为连续变量

分类（classification）：输出为离散变量

标注（tagging）：输入与输出均为变量序列。例如马尔可夫模型、条件随机场等，输入是一个变量序列（由多个结点和边构成的一个图模型），输出则是对应输入序列中每个变量的label组成的一个序列。像这样，输入是一个观测序列，输出是一个标记序列或状态序列（图模型中的状态转移），就属于标注问题。

三、损失函数

上面说过，策略就是指选择最优模型的准则，或者说损失函数、代价函数、风险函数等的定义问题。下面我们详细介绍。

对于给定的输入X，由f(X)给出相应的输出Y，而损失函数（loss function）或代价函数（cost function）就是指关于这个输出预测值f(X)与真实值Y的函数，用来度量预测错误的程度。

统计学习常用的损失函数有以下几种：

四、风险函数

1、损失函数度量模型一次预测的好坏，而风险函数度量的是模型平均意义下预测的好坏，即损失函数的期望：

监督学习本来就是建立在输入和输出空间服从联合概率分布P(X, Y)的假设基础上的。所以风险函数（期望风险）可以用上述公式来计算。

2、由于联合概率分布P(X, Y)是未知的，上式无法计算。那么给定一个训练数据集T，我们可以用下面的公式采用离散的方式计算风险函数，我们把这样计算出来的风险值叫做经验风险或经验损失（empirical risk / loss）。公式中的大F表示模型空间（假设空间或参数空间）

原因是：根据大数定律，当样本容量N趋于无穷时，经验风险趋于实际的期望风险。

3、当样本容量N比较小时，学习得到的模型容易产生过拟合现象。所谓的过拟合，直接原因是由于模型过于复杂（次数过高）导致的。

那么为了防止过拟合，我们需要添加一项描述模型复杂度的函数到风险函数中。这样在进行风险函数最优化时，我们既希望各个样本损失函数值的和最小，同时也希望模型的复杂度最小。这一点在学习stanford Ng老师的 machine learning 公开课时，里面也有讲到。模型的次数阶数越高，则复杂度越大，越容易过拟合。

加上模型复杂度项的目标函数的优化过程就叫做：结构风险最小化（structural risk minimization, SRM）。SRM只做一种概念，不需要纠结于与其他叫法的不同。

小灰兔呼噜噜

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
第一章统计学习方法概论 —— 第1~3节统计学习及监督学习的简介、损失函数及风险函数的公式化表达

关于统计学习方法的知识，参考书《统计学习方法》，李航著，清华大学出版社。所有章节的符号表示、公式表示都是统一化的。第一章统计学习方法概论第一节统计学习一、概念所谓统计学习，指的是基于已知数据构建统计模型，从而对未知数据进行预测。二、分类监督学习（supervised）、半监督学习（semi-supervised）、非监督学习（unsupervised）和强化学习
复制链接

扫一扫