统计学习理论的本质笔记 6-8 函数估计与VRM

最新推荐文章于 2023-06-20 13:32:21 发布

半只兔子M

最新推荐文章于 2023-06-20 13:32:21 发布

阅读量242

点赞数

分类专栏：统计学习笔记文章标签：机器学习支持向量机深度学习

本文链接：https://blog.csdn.net/qq_40525438/article/details/108146385

版权

本文详细探讨了函数估计的方法，包括ε不敏感损失函数、回归函数估计的SVM及其多种解法，如线性优化方法。介绍了如何构造估计实值函数的核，如正交多项式展开、样条和傅里叶展开的核。此外，还讨论了支持向量ANOVA分解和解决不适定问题的方法。在统计学习理论的直接方法部分，讨论了密度、条件概率和条件密度的估计问题，以及用SVM解决这些问题的策略。

摘要由CSDN通过智能技术生成

6 函数估计的方法

6.1 $\epsilon$ 不敏感损失函数

1964年 Huber 提出，如果我们只知道描述噪声的密度是一个对称函数，那么在最坏的噪声模型下最好的逼近（最小最大策略）为采用损失函数 $\alpha)) = |y -f(x, \alpha)|$ , 在这个损失函数下最小化经验风险的方法称为最小模方法，属于鲁棒回归（robust regression）方法。
Huber还考虑了正态噪声与某一对称噪声混合的情况，此时最优解在使用如下损失函数时得到
$L(|y-f(x,\alpha)|) = \begin{cases} c|y-f(x,\alpha)| - \dfrac{c^2}{2} &if \ \ |y-f(x,\alpha)| > c \\ \dfrac{1}{2}|y-f(x,\alpha)|^2 &if \ \ |y-f(x,\alpha)| \le c \end{cases}$
为了对实值函数（近似上面的损失函数）构造SVM,我们引入 $\epsilon$ 不敏感损失函数
$|y-f(x,\alpha)|_\epsilon = (|y-f(x,\alpha)| - \epsilon)_+$

6.2 用于回归函数估计的SVM

对固定结构的解
设存在结构
$S_n= \{|y-(w \cdot x + b)|_\epsilon:w \cdot w \le c_n\}$
经验风险
$R_{emp}(w, b) = \dfrac{1}{l} \sum\limits_{i=1}^l |y-(w \cdot x + b)|_\epsilon$
设
$|y_i-(w \cdot x_i + b)|_\epsilon = \xi_{i0} \to |y_i-(w \cdot x_i + b)| \le \epsilon + \xi_{i0} \\ \to y_i-(w \cdot x_i + b) \le \epsilon + \xi^*_i, \ \ (w \cdot x_i + b) - y_i \le \epsilon + \xi_i\\ \to R_{emp}(w, b) = \sum\limits_{i=1}^l \xi_i + \sum\limits_{i=1}^l \xi^*_i$
上式省略了常数系数 $1 / l$ 。显然上式最小化后会有 $\xi_i \xi^*_i = 0$ 故 $\xi_i + \xi^*_i = \xi_{i0}$ 。故有约束条件
$y_i-(w \cdot x_i + b) \le \epsilon + \xi^*_i,\ \ \ (w \cdot x_i + b) - y_i \le \epsilon + \xi_i\\ \xi_i \ge 0,\ \ \ \xi^*_i \ge 0,\ \ \ w \cdot w \le c_n$
拉格朗日函数
$\alpha, \beta, \lambda) = \sum\limits_{i=1}^l \xi_i + \sum\limits_{i=1}^l \xi^*_i + \sum\limits_{i=1}^l \beta_i (-\xi_i) + \sum\limits_{i=1}^l \beta^*_i (-\xi^*_i) + \dfrac{\lambda}{2} (w \cdot w - c_n) \\+ \sum\limits_{i=1}^l \alpha^*_i (y_i - (w \cdot x_i +b) - \epsilon - \xi^*_i) + \sum\limits_{i=1}^l \alpha_i ((w \cdot x_i +b) - y_i - \epsilon - \xi_i) , \\ \alpha_i \ge 0,\ \ \alpha^*_i \ge 0,\ \ \beta_i \ge 0,\ \ \beta^*_i \ge 0,\ \ \lambda \ge 0$
目标为 $\max\limits_{\alpha, \beta, \lambda}\min\limits_{w, b, \xi}L$ ，对拉格朗日函数求梯度得
$\dfrac{\partial L}{\partial w} = 0 \to w = \sum\limits_{i=1}^l \dfrac{\alpha^*_i - \alpha_i}{\lambda} x_i\\ \dfrac{\partial L}{\partial b} = 0 \to \sum\limits_{i=1}^l (\alpha^*_i - \alpha_i) = 0\\ \dfrac{\partial L}{\partial \xi_i} = 0 \to \alpha_i + \beta_i = 1\\ \dfrac{\partial L}{\partial \xi^*_i} = 0 \to \alpha^*_i + \beta^*_i = 1$
代入拉格朗日函数可得到该问题的对偶问题,最大化泛函
$W(\alpha, \lambda) = -\epsilon \sum\limits_{i=1}^l (\alpha^*_i + \alpha_i) + \sum\limits_{i=1}^l y_i (\alpha^*_i - \alpha_i) - \dfrac{1}{2\lambda}\sum\limits_{i,j=1}^l (\alpha^*_i - \alpha_i) (\alpha^*_j - \alpha_j) (x_i \cdot x_j) - \dfrac{\lambda}{2} c_n$
约束条件
$\sum\limits_{i=1}^l (\alpha^*_i -\alpha_i) = 0,\ \ 0 \le \alpha_i \le 1,\ \ 0 \le \alpha^*_i \le 1,\ \ \lambda \ge 0,\ \ \ \beta = 1- \alpha$
还需满足 Kuhn-Tucker条件
$\beta_i \xi_i = 0,\ \ \ \beta^*_i \xi^*_i = 0,\ \ \ \lambda (w \cdot w - c_n) = 0\\ \alpha^*_i (y_i - (w \cdot x_i +b) - \epsilon - \xi^*_i) = 0,\ \ \ \alpha_i ((w \cdot x_i +b) - y_i - \epsilon - \xi_i) = 0$
其中 $\dfrac{\alpha^*_i - \alpha_i}{\lambda} \not = 0$ 的项决定了支持向量（ $x_i$ 对 $w$ 有贡献）。

采用软间隔的基本解
最小化泛函
$\Phi(w, b) = \dfrac{1}{2} w \cdot w + C(\sum\limits_{i=1}^l \xi_i + \sum\limits_{i=1}^l \xi^*_i)$
拉格朗日函数
$\alpha, \beta) = \dfrac{1}{2} w \cdot w + C\sum\limits_{i=1}^l \xi_i + C\sum\limits_{i=1}^l \xi^*_i + \sum\limits_{i=1}^l \beta_i (-\xi_i) + \sum\limits_{i=1}^l \beta^*_i (-\xi^*_i)\\ + \sum\limits_{i=1}^l \alpha^*_i (y_i - (w \cdot x_i +b) - \epsilon - \xi^*_i) + \sum\limits_{i=1}^l \alpha_i ((w \cdot x_i +b) - y_i - \epsilon - \xi_i) ,\\ \alpha_i \ge 0,\ \ \alpha^*_i \ge 0,\ \ \beta_i \ge 0,\ \ \beta^*_i \ge 0$

最低0.47元/天解锁文章

半只兔子M

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
统计学习理论的本质笔记 6-8 函数估计与VRM

6 函数估计的方法6.1 ϵ\epsilonϵ 不敏感损失函数1964年 Huber 提出，如果我们只知道描述噪声的密度是一个对称函数，那么在最坏的噪声模型下最好的逼近（最小最大策略）为采用损失函数 L(y,f(x,α))=∣y−f(x,α)∣L(y, f(x, \alpha)) = |y -f(x, \alpha)|L(y,f(x,α))=∣y−f(x,α)∣, 在这个损失函数下最小化经验风险的方法称为最小模方法，属于鲁棒回归（robust regression）方法。Huber还考虑了正态噪声与某
复制链接

扫一扫