将线性回归模型处理成核函数版本

最新推荐文章于 2022-03-19 21:29:21 发布

麦地与诗人

最新推荐文章于 2022-03-19 21:29:21 发布

阅读量1.3k

点赞数 4

分类专栏：机器学习

本文链接：https://blog.csdn.net/YPP0229/article/details/90672412

版权

机器学习专栏收录该内容

37 篇文章 6 订阅

订阅专栏

1.

训练数据 $(X, y)$ ,其中X是一个 $N * d$ 的矩阵，表示训练数据有 $d$ 个特征，一共有 $N$ 个训练数据点， $y$ 是一个长度为 $N$ 的向量。

$X^{(i)}:$ $\quad$ 表示第 $i$ 个数据点( $X 的第 i 行$ )

$X_j:$ $\quad$ 表示 $X 的第 j 列$

$X_{j}^{(i)}:$ $\quad$ 则表示 $X$ 的第 $i$ 行 $j$ 列的元素

$y^{(i)}:$ $\quad$ 就是 $X^{(i)}$ 所对应的值

2.

对于线性回归模型，我们希望训练出一个模型 $w\cdot x = x^T w$ ，其中（假设我们使用平方距离作为代价函数），

$arg\,min_w \sum_{i}^{N} (y^{(i)} - X^{(i)} w)^2$

通过对代价函数 $\sum_{i}^{N} (y^{(i)} - X^{(i)} w)^2$ 关于 $w$ 求导，并将导数设为 $0$ ，可以解得 $w$ ；

因为，每一个特征 $X_j$ 都对应一个权重参数 $w_j$ ，所以要对每一个 $w_j$ 求导：

$\quad\quad\quad\frac{\partial}{\partial w_j}\sum_{i}^{N} (y^{(i)} - X^{(i)} w)^2$

$\quad\quad=\sum_{i}^{N}2(y^{(i)} - X^{(i)} w)(-X_{j}^{(i)})=0$

$\quad\quad\quad\sum_{i}^{N}(y^{(i)} - X^{(i)} w)X_{j}^{(i)}=0\quad\quad\quad\quad(1)$

现在，我们将求和，转换成矩阵乘法，求和是从i到N，那么 $y^{(i)} - X^{(i)} w)$ 就可以写成向量 $(y - X w)$ ， $X_{j}^{(i)}$ 就变成 $X_{j}$ ,这样一来，(1)式就可以写成：

$Xw)^TX_{j}=0\quad\quad\quad\quad(2)$

对于每个 $w_j$ ，都有一个这样的限定条件，一共有 $d$ 个，所以(2)式又可写成：

$Xw)^TX=0\quad\quad\quad\quad(3)$

由(3)式可以求解得到 $w$ ,

$\quad\quad\quad\quad(y- Xw)^TX=0$
$\quad\quad\quad(y^T-(Xw)^T)X=0$
$\quad\quad\quad(y^T-w^TX^T)X=0$
$\quad\quad\quad y^TX-w^TX^TX=0$
$\quad\quad\quad\quad y^TX=w^TX^TX$
$\quad\quad (y^TX)^T=(w^TX^TX)^T$
$\quad\quad\quad\quad X^Ty=X^TXw$
$\quad\quad\quad(X^TX)^{-1}X^Ty=w$

3.

将其代入 $f (x)$ ，可以得到：

$w\cdot x = x^T w$
$\quad\quad=x^T(X^TX)^{-1}X^Ty$
$\quad\quad=x^TX^T(X^T)^{-1}(X^TX)^{-1}X^Ty$
$\quad\quad=x^TX^T(X^T)^{-1}X^{-1}(X^T)^{-1}X^Ty$
$\quad\quad=x^TX^T(X^T)^{-1}X^{-1}y$
$\quad\quad=x^TX^T(XX^T)^{-1}y\quad\quad\quad(4)$

f(x)是线性回归输出的预测值，是一个数，
$x:d\times 1;\quad\quad X:N\times d\quad\quad XX^T:N\times N\quad\quad y:N\times 1$

$x^T:1\times d\quad\quad X^T:d\times N\quad\quad X(X^T)^{-1}:N\times N\quad\quad y:N\times 1$

令 $\alpha=(XX^T)^{-1}y$ , (4)可以写成，

$\quad\quad f(x)=x^TX^T\alpha$

现在，把矩阵乘法改成求和的形式：
$\quad\quad f(x)=x^TX^T\alpha$
$\quad\quad\quad\quad =\sum_{i}^{N}x^TX^{{(i)}^{T}}\alpha_i$
$\quad\quad\quad\quad =\sum_{i}^{N}\alpha_iX^{{(i)}^{T}}\cdot x$
$\quad\quad\quad\quad =\sum_{i}^{N}\alpha_ik(X^{{(i)}^{T}},x)$

问题，两个样本点积的形式，就一定能写成核函数么？

在机器学习中，我们要用到内积运算。而在映射后的高维空间中，内积往往是很不好求解的。所以，我们能不能找到在低维空间中的某个运算，恰好等于高维空间中的内积运算呢？
是不是理解成，即便我们没有将自己的数据向高维去映射，但只对于我们维度很高的数据，为了简化其运算，也可以将其写成内积的形式。
换句话说，核函数就是低维空间中的内积的某个函数。
当我们对新的样本点进行数据分类的时候，我们可以通过判断这个样本向量和我们求得的分割超平面的法向量w的内积来计算，二者的夹角若是小于90度，说明分类正确，夹角若是大于90度，说明分类错误。
而之前我们是怎样判断一个样本分类正确与否的呢？我们是先初始化一个分割超平面，然后分别把我们的样本点带入到超平面的方程，结果值大于0的分为一类，小于零的分为一类，

之前是，给定训练数据，找一条直线去拟合这些数据，一个样本数据有 $x_1,x_2,...x_n$ ，n个特征，我们给每个特征分别赋以n个权重 $w_1,w_2,...w_n$ ,有了权重和特征的线性组合 $f(x)=w_1x_1+w_2x_2+...+w_nx_n$ ，这样我们就可以对新的数据进心预测。

现在是，我们通过对 $f(x)=w\cdot x$ 的变形，得到 $=\sum_{i}^{N}\alpha_ik(X^{{(i)}^{T}},x)$

4.

$\alpha=(XX^T)^{-1}y$ ,
$K=(XX^T)^{-1}$ ,
那， $K_{j}^{(i)}=X^{(i)}X^{{(j)}^T}$
$\quad K_{j}^{(i)}=X^{{(i)}^T}\cdot X^{{(j)}^T}$
$\quad K_{j}^{(i)}=k(X^{{(i)}^T}, X^{{(j)}^T})$

这样，通过核函数可以计算出 $K$ ，进而得到 $\alpha$ ，然后利用核函数版的模型

这样，通过核函数可以计算出，进而得到，然后使用核函数版的模型 $=\sum_{i}^{N}\alpha_ik(X^{{(i)}^{T}},x)$ ，就可以在线性回归模型中，利用核函数向其它空间映射（在不实际计算映射函数的情况下）处理线性不可分的数据了。

参考：
作者：行为流
链接：https://www.zhihu.com/question/24627666/answer/261691223
来源：知乎

麦地与诗人

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
将线性回归模型处理成核函数版本

1.训练数据(X,y)(X,y)(X,y),其中X是一个N∗dN*dN∗d的矩阵，表示训练数据有ddd个特征，一共有NNN个训练数据点，yyy是一个长度为NNN的向量。X(i):X^{(i)}:X(i): \quad表示第iii个数据点(X的第i行X的第i行X的第i行)Xj:X_j:Xj: \quad表示X的第j列X的第j列X的第j列Xj(i):X_{j}^{(i)}:Xj(i):...
复制链接

扫一扫

专栏目录