DataWhale集成学习-Task2

最新推荐文章于 2021-08-17 21:30:27 发布

What We Talk about

最新推荐文章于 2021-08-17 21:30:27 发布

阅读量128

点赞数

分类专栏：集成学习

本文链接：https://blog.csdn.net/king_without_clothes/article/details/114993201

版权

集成学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

DataWhale集成学习-Task2

记录 DataWhale集成学习的组队学习过程，Task2是熟悉机器学习中的回归问题，主要介绍了三种算法：线性回归；决策树回归；支持向量回归。

线性回归

线性回归，顾名思义就是用线性模型来拟合数据，也就是说假设标签与特征之间存在 $y_{i}=\boldsymbol{\theta}^{T} \boldsymbol{x_i}$ 这样的线性关系，线性回归中用的一般都是最小二乘估计，DataWhale的教材中给出了线性回归使用最小二乘回归的两个解释，一个是基于概率的解释，一个是基于几何的解释，这里我也照猫画虎的给出一点自己的见解。
定义一个回归问题:有带标签数据集 $D=\{(\boldsymbol{x_1},y_1),(\boldsymbol{x_2},y_2)\cdots(\boldsymbol{x_m},y_m)\}$ ，其中 $\boldsymbol{x_i}\in\mathbb R^d$ ， $m$ 个样本的特征组成特征矩阵 $X$ ,其中 $X\in\mathbb R^{m\times d}$ （每一行是一个样本）； $m$ 个样本的标签组成标签向量 $\boldsymbol{y}=(y_1,y_2\cdots y_m)^T$ 。我们的目的是求出未知参数 $\boldsymbol{\theta}$ , 其中， $\boldsymbol{\theta}\in \mathbb R^d$ ，使得 $X\boldsymbol{\theta}-\boldsymbol{y}||^2_2$ 最小。我们记 $J(\boldsymbol{\theta})=|| X\boldsymbol{\theta}-\boldsymbol{y}||^2_2$ , $J(\boldsymbol{\theta})$ 就是我们要优化的目标函数。

目标函数的数学意义

第一个要回答的问题就是为什么我们的目标函数要定义为 $X\boldsymbol{\theta}-\boldsymbol{y}||^2_2$ 这种形式，为什么是残差向量二范数的平方， $X\boldsymbol{\theta}-\boldsymbol{y}||^3_2$ 这样的三次方不可以吗？这样定义的背后的数学意义在哪里？

这里我们从概率出发，给出一个数学上的解释,我们考虑某单个样本 $\boldsymbol{x_i},y_i)$ ，在参数 $\boldsymbol{\theta}$ 确定的情况下存在以下公式：
$y_{i}=\boldsymbol{\theta}^{T} \boldsymbol{x_i}+\epsilon_i \tag{1}$

其中， $\epsilon_i$ 代表的是误差项，每一个样本都有一个自己的误差项 $\epsilon$ ，我们将 $\epsilon$ 看作一个随机变量，在样本间是独立同分布的，而且服从高斯分布 $\epsilon\sim \mathcal{N}(0,\sigma^2)$ 。根据公式(1)我们可知，此时我们是将 $\boldsymbol{\theta}$ 和 $\boldsymbol{x_i}$ 看作已知量的，所以 $y_i$ 也为随机变量，且 $y_i\sim \mathcal{N}(\boldsymbol{\theta}^{T} \boldsymbol{x_i},\sigma^2)$ ， $y_i$ 的概率密度函数为：
$p\left(y_i \mid \boldsymbol{x_i} ; \boldsymbol{\theta}\right)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y_i-\boldsymbol{\theta}^{T} \boldsymbol{x_i}\right)^{2}}{2 \sigma^{2}}\right) \tag{2}$
我们知道，标签 $y_i$ 也是独立同分布的，此时已经知道了 $y$ 的概率分布，接下来就是求未知参数 $\boldsymbol{\theta}$ ，其实也很简单，使用极大似然估计一波带走，先求出似然函数 $L(\boldsymbol\theta)$ ：
$\begin{aligned}L(\boldsymbol\theta)&=\log \prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y_i-\boldsymbol\theta^{T} \boldsymbol x_i\right)^{2}}{2 \sigma^{2}}\right) \\ &=\sum_{i=1}^{m} \log \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y_i-\boldsymbol\theta^{T} \boldsymbol x_i\right)^{2}}{2 \sigma^{2}}\right) \\ &=m \log \frac{1}{\sqrt{2 \pi} \sigma}-\frac{1}{\sigma^{2}} \cdot \frac{1}{2} \sum_{i=1}^{m}\left(y_i-\boldsymbol\theta^{T} \boldsymbol x_i\right)^{2} \end{aligned} \tag{3}$

通常顺序是接着对似然函数求导，然后让导数为0，但是从公式(3)我们可以很清楚的看出，要想让 $L(\boldsymbol\theta)$ 最大，那 $\sum_{i=1}^{m}\left(y_i-\boldsymbol\theta^{T} \boldsymbol x_i\right)^{2}$ 就应该最小，又因为：
$\sum_{i=1}^{m}\left(y_i-\boldsymbol\theta^{T} \boldsymbol x_i\right)^{2}=|| X\boldsymbol{\theta}-\boldsymbol{y}||^2_2 \tag{4}$

有意思的是，我们一开始假设 $\epsilon\sim \mathcal{N}(0,\sigma^2)$ ，最后通过公式化简我们发现，无论 $\sigma$ 取什么值都不影响我们的结论。所以我们至此证明了，最小二乘背后的数学假设是：模型预测的残差服从均值为0的高斯分布。其实以上证明只是Generalize Linear Models模型的一个特殊情况，对Generalize Linear Models感兴趣的朋友可以看一下An Introduction to Generalized Linear Models这篇论文。

正规方程解决最小二乘问题

第一个问题已经解决了，第二问题是如何优化 $J(\boldsymbol{\theta})$ 求出 $\boldsymbol{\theta}$ ，这个问题其实十分好解决，只要遇到一阶可导的优化问题，直接SGD一波带走(大雾)，其实如何优化这个问题，涉及到了矩阵论的一些知识(让我回想起了以前被矩阵论课支配的恐惧),内容比较多,这里只做一个最简单的推导。
最小化 $X\boldsymbol{\theta}-\boldsymbol{y}||^2_2$ ，从矩阵论的角度，可以看作求方程组：
$X\boldsymbol{\theta}=\boldsymbol{y} \tag{5}$
我们知道，当方程组方程的个数大于未知数的个数的时候，方程组称为"超定方程组"，是没有解的。在我们这个线性拟合问题中，就是当样本个数 $m$ 大于特征维度 $d$ 时，为超定方程组，在绝大时候，样本的个数是远远大于特征的维度的。在矩阵论中，最小二乘问题可以看作这样一个问题：求集合 $\{ \boldsymbol{\theta}\in \mathbb R^d ：|| X\boldsymbol{\theta}-\boldsymbol{y}|| \ is\ minimized\}$ ,意思就是，虽然方程组没有解，但是在2范数意义下，存在 $\boldsymbol{\theta}$ 使得 $X\boldsymbol{\theta}$ 最接近 $\boldsymbol y$ 。其具体求解过程如下：
设残差向量 $\boldsymbol r=X\boldsymbol{\theta}-\boldsymbol{y}$ ,我们先在二维空间中进行讨论，此时， $X\boldsymbol{\theta}$ 为一条直线， $\boldsymbol{y}$ 为空间中的一个向量，根据定义，在 $X\boldsymbol{\theta}$ 这条直线上存在最优点 $\boldsymbol{\theta^*}$ 使得 $X\boldsymbol{\theta}-\boldsymbol{y}||$ 最小，这个 $\boldsymbol{\theta^*}$ 就是最小二乘解集合中的一个元素，如下图所示：
在这里插入图片描述

可以很明显的看出，当残差向量 $\boldsymbol r=X\boldsymbol{\theta}-\boldsymbol{y}$ 中的 $\boldsymbol{\theta}=\boldsymbol{\theta^*}$ 时， $\boldsymbol r$ 垂直于 $X\boldsymbol{\theta}$ 。我们知道， $X\boldsymbol{\theta}$ 定义的是矩阵 $X$ 的列空间 $C (X)$ ，由矩阵论中矩阵四个基本空间的知识可知，与 $C (X)$ 垂直的空间为矩阵 $X$ 的左零空间 $N(X^T)$ ,所以残差向量 $\boldsymbol r\in N(X^T)$ ，由左零空间的定义可知：
$X^T \boldsymbol r=\boldsymbol 0$
将 $\boldsymbol r=X\boldsymbol{\theta}-\boldsymbol{y}$ 代入，得到：
$X^T(X\boldsymbol{\theta}-\boldsymbol{y})=\boldsymbol0$
最后我们得到The normal equations(正规方程组)
$X^TX\boldsymbol{\theta}=X^T\boldsymbol y$
解此方程组即可得到最优的参数。

线性回归推广

简单的线性模型只能拟合线性关系，在复杂的数据集中肯定无法取得好的结果，一般的方法是对原始特征进行一些特征映射(feature transform)，将原始数据映射到更高维的空间中。像下面这张图一样(图来自林轩田老师的《机器学习基石》课程，一个非常棒的公开课)，样本点 $\{(\boldsymbol{x_n},y_n)\}，n=1,2,\cdots$ 在原始的样本空间中只能用一个圈分割，很显然是线性不可分的，但是通过特征映射，将原始的特征空间 $\mathcal X$ 映射到空间 $\mathcal Z$ 中，在空间 $\mathcal Z$ 中就成线性可分了。一个大家比较熟悉的应用是SVM中的核函数，起到的作用也是特征映射。
在这里插入图片描述

广义可加模型

第一次听说这个模型，公式如下所示，好像是把其他模型得到的结果当作特征，再输入一个线性模型，只不过这个线性模型没有权重，只有一个偏置。感觉这就是集成学习中的Blending和Stacking的一个简化版啊，不知道它们的区别在哪里。 $y_i = {\theta_0} + \sum\limits_{j}f_{j}(x_{i}) + \epsilon_i$

决策树回归和支持向量回归

决策树回归就是用一般的决策树做回归问题，常用的还是CART树，关于CART树的知识，《统计学习方法》这本书中给出了很详细的介绍，CART树是GBDT和XGboost的基础。支持向量回归可以参考周志华老师的《机器学习》，和我们上面介绍的线性回归的差别在于损失函数不同，线性回归用平方误差做损失函数，支持向量回归的损失函数设计了一个阈值 $\epsilon$ ，误差小于这个阈值 $\epsilon$ 是不计算的，我们还是以林轩田老师课中的图片当例子，图片中的tube函数就是支持向量回归中使用的损失函数，通过加了阈值 $\epsilon$ ,且使用绝对值作为误差函数，使得算法的抗噪点能力更强。
在这里插入图片描述

What We Talk about

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DataWhale集成学习-Task2

DataWhale集成学习-Task2线性回归目标函数的数学意义正规方程解决最小二乘问题线性回归推广广义可加模型决策树回归和支持向量回归记录DataWhale集成学习的组队学习过程，Task2是熟悉机器学习中的回归问题，主要介绍了三种算法：线性回归；决策树回归；支持向量回归。线性回归线性回归，顾名思义就是用线性模型来拟合数据，也就是说假设标签与特征之间存在yi=θTxiy_{i}=\boldsymbol{\theta}^{T} \boldsymbol{x_i}yi=θTxi这样的线性关系，线性回归
复制链接

扫一扫