统计学习三要素的思考

最新推荐文章于 2019-05-20 11:46:42 发布

DrCrypto

最新推荐文章于 2019-05-20 11:46:42 发布

阅读量801

点赞数

分类专栏： Deep Learning 文章标签：机器学习统计学

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011240016/article/details/78690152

版权

Deep Learning 专栏收录该内容

40 篇文章 5 订阅

订阅专栏

统计学习三要素的思考

@(Machine Learning)

三要素

模型
策略
算法

三要素组成一个公式

方法 = 模型 + 策略 + 算法

模型

监督学习里，模型就是待学习的条件概率分布或决策函数。

其中，条件概率分布：

P ̂ (Y | X)

$\hat P(Y|X)$

表示在已知输入数据的条件下，输出为Y的概率。

将其表示为函数，就是 $Y = \hat f(X)$ 。
二者均表示输入与输出随机变量之间的映射关系。

关于模型，需要理解的概念是：假设空间。

假设空间表示所有可能的条件概率分布或者决策函数。
假设空间通常是由参数向量决定的函数族。

这句非常重要：假设空间中的模型通常是无穷多个。

那么，我们在假设空间中要选出最优模型，这无穷的空间中找到我们想要的那个，盲目遍历就是大海捞针，下面的策略就是用于解决这个问题的方法。

策略

在知道模型的假设空间后，自然需要考虑的一个问题是：按照什么样的学习准则学习或选择最优模型。

指导解决这个问题的方针就是这里说的策略。

引入损失函数/代价函数，风险函数的概念。

在具体的应用中，比如TF框架下，我们常常用到损失函数，但是对于风险函数是不多见的。

损失函数 vs. 风险函数

损失函数：度量模型一次预测的好坏
风险函数：平均意义下度量模型的好坏

在统计里，平均的意义就是我们说的期望，牵涉到的是每类出现的概率。

损失函数里的一次预测，指的是给定输入，选取的模型会得出一个预测输出值，这个值和真实值可能有差别，损失函数的作用就是来衡量这个预测的错误程度。

经典的损失函数有：

0-1损失函数–简单粗暴，预测对了就是0error，错了就是1，表示全错
平方损失函数： $L(Y,f(X)) = (Y-f(X))^2$
绝对损失函数： $L(Y,f(X)) = |(Y-f(X))|$
对数损失函数： $L(Y,P(Y|X)) = -\log P(Y|X)$

损失函数的通用判定是损失函数值大就是预测的不好，越小则预测的越好。

有损失函数的铺垫，风险函数就好理解了，只是加上了一点点宏观的角度，上面损失函数是一次输入输出的判定，把所有的输入输出结合在一起，输入输出(X,Y)遵循联合分布，求出一个输入输出的损失函数的期望：

R e x p (f) = E p [L (Y, f (X))] = \int χ \times γ L (y, f (x)) P (x, y) d x d y

$R_{exp}(f) = E_p[L(Y,f(X))] = \int_{\chi \times \gamma} L(y,f(x))P(x,y)dxdy$

如果我们知道了联合分布，求出 $P(Y|X)$ 就根本不费事，所以就不必再大费周章的学习。所以实际上，联合分布是未知的。这样，就导致风险函数，也称之为期望损失是不可知的，就需要其他方法来近似。

近似的方法很粗暴：

R e m p (f) = 1 N \sum i = 1 N L (y i, f (x i))

$R_{emp}(f) = \frac{1}{N} \sum_{i = 1}^N L(y_i,f(x_i))$

这个也称作经验风险。再祭出大数定律的大旗，得出可以用经验风险来估计期望风险。

现实依旧残酷，现实中的训练样本数目距离这里的大数还差得远，导致此类估计并不理想。由此引入矫正的手段。

推导出两个基本策略：

经验风险最小化策略 | ERM
结构风险最小化策略 | SRM

关键词出来了。

经验风险最小化

这部分最主要的目的就是找到选出最优模型的方法。
经验风险最小化策略非常简单：经验风险最小的模型就是最优模型。

极大似然估计里，模型是条件概率，损失函数是对数损失函数，极大似然估计就是经验风险最小化。

这个观点从原理上解释了极大似然估计是如何起作用的，之前在概率论里并不能很好理解为什么最大似然函数可以起作用，只是在套公式而已。

经验风险过拟合在样本量小时将遇到极大挑战，模型过度学习了训练数据的分布，妥妥的带来过拟合现象。

结构风险最小化

为防止过拟合提出的策略。等价于正则化|Regularization.

简单说就是为经验风险加上一些表示模型复杂度的正则化项 | regularizer，或者称之为罚项 | penalty term.

定义如下：

R s r m (f) = 1 N \sum i = 1 N L (y i, f (x i)) + λ J (f)

$R_{srm}(f) = \frac{1}{N} \sum_{i = 1}^NL(y_i,f(x_i)) + \lambda J(f)$

像是在经验风险定义上加上一些噪声，使得模型在优化这个损失函数时更加健壮。

这里， $J(f)$ 表示的是模型的复杂度，是定义在假设空间 $\digamma$ 上的泛函。

泛函我并不熟悉。简单理解正则化项就是，模型越复杂，复杂度 $J(f)$ 就越大。

$\lambda \leq 0$ ，是调节系数，用于权衡经验风险和模型复杂度。

经验风险最小化的策略认为结构风险最小的模型就是最优的模型。

由此，监督学习问题变成了经验风险和结构风险最小化问题。经验风险函数或者结构化风险函数就是最优化的目标函数。

算法

就是学习模型的具体计算方法。

上面知道了最优化的目标函数，但是用什么方法来最优化是待确定的，也就是这部分需要考虑的问题。

问题如果存在显示的解析解，这样的话问题就比较简单。常常解析解并不存在，需要用数值计算的方法，并使求解过程高效。这部分就是针对这个内容，更具体的内容在后面详细展开。

– 学习自李航《统计学习方法》

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
统计学习三要素的思考

统计学习三要素的思考@(Machine Learning)三要素模型策略算法三要素组成一个公式方法 = 模型 + 策略 + 算法模型监督学习里，模型就是待学习的条件概率分布或决策函数。其中，条件概率分布：P̂ (Y|X)\hat P(Y|X)表示在已知输入数据的条件下，输出为Y的概率。将其表示为函数，就是Y=f̂ (X)Y = \hat f(X)。二者均表示输入与输出随机变量之间的映
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。