[机器学习] 机器学习中所说的“线性模型”是个什么东西？

最新推荐文章于 2024-07-21 23:11:12 发布

Harry嗷

最新推荐文章于 2024-07-21 23:11:12 发布

阅读量2.7k

点赞数 5

分类专栏：机器学习文章标签：神经网络深度学习机器学习人工智能 python

本文链接：https://blog.csdn.net/qq_41683065/article/details/104674865

版权

机器学习专栏收录该内容

8 篇文章 3 订阅

订阅专栏

文章目录

线性是对谁而言？

线性模型中的线性，并不指对输入变量的线性，而是指对参数空间的线性。

也就说对于输入来说，完全可以对先对其进行非线性变换，再进行线性组合。从这个角度来说，线性模型完全具有描述非线性的能力。

举一个简单的例子：

$y = w x + b$ 是线性模型，没问题。

$y=w_1x+w_2x^2+w_3x^3+b$ 也是线性模型。原因是线性并不指对输入变量的线性，而是指对参数空间的线性。即模型 $y=w_1x+w_2x^2+w_3x^3+b$ 对 $w$ 仍是线性的。但模型对 $x$ 是非线性的，即线性模型完全具有描述非线性的能力。

对 $y=w_1x+w_2x^2+w_3x^3+b$ 模型的 $x$ 进行换元，即 $x_1=x, x_2=x^2, x_3=x^3$ ，得到 $y=w_1x_1+w_2x_2+w_3x_3+b$ ，这样模型的线性就很明显了。

广义线性模型

另一个 线性模型中的线性是指对参数空间的线性 的例子是：广义线性模型。

先以对数线性(Log-Linear Regression) 模型为例：

$y = e x p (w x + b)$ ，变换后得到 $l o g (y) = w x + b$ ，形式上仍是线性回归（对 $w$ 来说），但可以实现输入空间到输出空间的映射（对 $x$ 来说）。

在这里插入图片描述
实际的广义线性模型(Generalized Linear Model) 定义如下：

$y=g^{-1}(w^Tx)$ ，其中 $g (\cdot)$ 为单调可微的函数， $y'=g(y)=w^Tx$ 。

广义线性模型是线性回归（对 $w$ 来说），但可以实现输入空间到输出空间的映射（对 $x$ 来说）。

神经网络为什么要使用非线性激活

原因是：如果不使用激活函数（或使用线性激活函数），多层神经网络可以用一层网络来等效替代。

至于为什么能替代，是因为多个线性函数的组合仍为线性函数（对于输入空间和输出空间而言）。

比如对于一个两层的神经网络：
在这里插入图片描述
有：
$z^{[1]}=W^{[1]}x+b^{[1]} \\ a^{[1]}=g^{[1]}(z^{[1]}) \\ z^{[2]}=W^{[2]}a^{[1]}+b^{[2]} \\ a^{[2]}=g^{[2]}(z^{[2]}) \\$
若没有激活函数，则：
$a^{[1]}=z^{[1]}=W^{[1]}x+b^{[1]} \tag{1}$

$a^{[2]}=z^{[2]}=W^{[2]}a^{[1]}+b^{[2]} \tag{2}$

将（2）式带入（1）式，得：
$\begin{aligned} a^{[2]}=z^{[2]}&=W^{[2]}a^{[1]}+b^{[2]} \\ &=W^{[2]}(W^{[1]}x+b^{[1]})+b^{[2]} \\ &=(W^{[2]}W^{[1]})x+(W^{[2]}b^{[1]}+b^{[2]}) \end{aligned}$
令 $W'=W^{[2]}W^{[1]}$ ， $b'=W^{[2]}b^{[1]}+b^{[2]}$ ，则得到：
$a^{[2]}=z^{[2]}=W'x+b'$
即无激活函数（或线性激活函数）的多层神经网络可以由单层神经网络等效替代。

原因是：多个线性函数的组合仍为线性函数，这里的线性是对输入空间和输出空间来说的。

Harry嗷

关注

5
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
[机器学习] 机器学习中所说的“线性模型”是个什么东西？

[机器学习] 机器学习中所说的“线性模型”是个什么东西？线性是对谁而言？线性模型中的线性，并不指对输入变量的线性，而是指对参数空间的线性。也就说对于输入来说，完全可以对先对其进行非线性变换，再进行线性组合。从这个角度来说，线性模型完全具有描述非线性的能力。举一个简单的例子：y=wx+by=wx+by=wx+b 是线性模型，没问题。y=w1x+w2x2+w3x3+by=w_1x+...
复制链接

扫一扫

专栏目录