感知器公式推导

最新推荐文章于 2022-06-27 11:51:27 发布

晨哥是个好演员

最新推荐文章于 2022-06-27 11:51:27 发布

阅读量615

点赞数 1

分类专栏：机器学习文章标签：机器学习感知器

本文链接：https://blog.csdn.net/gc348342215/article/details/112484357

版权

机器学习专栏收录该内容

11 篇文章 2 订阅

订阅专栏

感知器推导总结

我们知道当 $\in \mathbb{R}$ ，若规定 $y$ 的取值只能为 ${1, -1\}$ ，那么我们的决策边界函数为： $sign(\omega^Tx+b)$
其中上式的 $s i g n$ 函数用于判断选择最后 $y$ 的取值。
$\left\{\begin{array}{rr} 1, a\geqslant0\\-1, a\leqslant0\end{array}\right.$

条件推理

证明： $\vec \omega$ 是超平面的法向量

证：

我们知道对一个超平面，划分决策边界为 $\omega^Tx+b = 0$ ，其中 $\omega$ 向量为超平面的权重向量（ $w e i g h t$ $v e c t o r$ ），而 $b$ 则被称为偏置（ $b i a s$ ）。如上图我们在决策边界上取两个点，分别是 $x_1, x_2$ 。将其分别带入到决策边界上得到两个方程。

由 $\left\{\begin{array}{lr} \omega^Tx_1+b=0\\\omega^Tx_2+b=0\end{array}\right.$ ，将两式相减可推出： $\omega^T(x_1-x_2)=0$

我们仔细观察得出的式子，实际上就是两个向量的数量积为0，即： $\overrightarrow{\omega} \centerdot \overrightarrow{(x-y)} = 0$ ，这说明 $\overrightarrow{\omega} \perp \overrightarrow{(x_1-x_2)}$ ，即证明了 $\overrightarrow{\omega}$ 是超平面的法向量。

从点到超平面的距离 $d$ 如何计算？

首先在计算 $d$ 之前先补充一个知识点：
在这里插入图片描述
如图，假设向量 $\overrightarrow{b} = \overrightarrow{x-x_1}$ ，直线到 $x$ 点的向量为 $\overrightarrow{a}$ 。此时对于 $\overrightarrow{a} \centerdot \overrightarrow{b}$ 随着 $\overrightarrow{a}$ 逐渐单位化，向量 $\overrightarrow{b}$ 会逐渐靠近 $\overrightarrow{a}$ 这侧（即单位化这侧的投影）。所以 $x$ 到直线的距离为： $\frac{|\overrightarrow{b}\centerdot\overrightarrow{e}|}{\|\omega\|_2}$

这个结论非常的重要，以至于我们后面的证明因此而变得清晰，接下来计算点到超平面的距离。

$\left\{\begin{array}{lr} d = \frac{|\overrightarrow{(x-x_1)}\centerdot\overrightarrow{\omega}|}{\|\omega\|_2}\\\omega^Tx_1+b=0\end{array}\right.$ ，由此推出： $\left\{\begin{array}{lr} d = \frac{|\omega^Tx-\omega^Tx_1|}{\|\omega\|_2}\\b=-\omega^Tx_1\end{array}\right.$

所以结论得到，平面一点到决策边界的距离（或者说点到超平面的距离）为： $\frac{|\omega^Tx+b|}{\|\omega\|_2}$

$L o s s$ $f u n c t i o n$

感知器的损失函数最初设想如下：

$L(\omega, b) = \sum\limits_{i=1}^NI\left[y_i(\omega^Tx_i+b)\right]$

其中中括号里的部分，代表着错误的分类，比如分类错误：
$f(x_i) = sign(\omega^Tx_i+b) = +1,y_i=-1 \Rightarrow y_i(\omega^Tx_i+b)<0$ $f(x_i) = sign(\omega^Tx_i+b) = -1,y_i=+1 \Rightarrow y_i(\omega^Tx_i+b)<0$

上式的 $I$ 函数功能： $\left\{\begin{array}{lr}若y_i(\omega^Tx_i+b)>0，I=1\\若y_i(\omega^Tx_i+b)<0，I=0\end{array}\right.$ ，那么就很好解释损失函数了，主要是用于计算当预测错误时，点到决策边界的代价值。通常，为了使得损失达到最小，我们需要寻找在定义内的最小点，就会涉及到求导。对于上式 $L o s s$ $f u n c t i o n$ ， $I$ 不可导，因此我们互哪一种思路，将 $L o s s$ $f u n c t i o n$ 转化为下式：

$L(\omega, b) = \sum\limits_{x_i\in M}\frac{|\omega^Tx_i+b|}{\|\omega\|_2}$

其中 $M$ 是所有误分类点的集合， $L o s s$ $f u n c t i o n$ 代表的就是所有分类错误的点到直线的距离之和。我们只需要将这个距离降到最小，即可划分出一条直线到各个点的距离之和最小，因此我们对上式求导，这个时候问题又出现了，由于分子中有绝对值，这不方便我们求导，我们对该式的分子去绝对值操作后即为：

$L(\omega, b) = \sum\limits_{x_i\in M}\frac{-y_i(\omega^Tx_i+b)}{\|\omega\|_2}$

学习策略

通过梯度下降算法，找到局部最优解。我们将上式 $L(\omega, b) = \sum\limits_{x_i\in M} = \frac{-y_i(\omega^Tx_i+b)}{\|\omega\|_2}$ 的常数 $\frac{1}{\|\omega\|_2}$ 直接去掉，对找到局部最优解无任何影响，得到：

$L(\omega, b) = \sum\limits_{x_i\in M}-y_i(\omega^Tx_i+b)$

我们分别对 $L(\omega, b)$ 关于权重 $\omega$ 和偏置 $b$ 求梯度，分别确定这两个参数所对应超平面的梯度下降，并进行迭代更新，直至找到局部最优解为止。

$\left\{\begin{array}{lr}\nabla_{\omega}L(\omega, b) = -\sum\limits_{x_i\in M}y_ix_i\\\nabla_bL(\omega, b) = -\sum\limits_{x_i\in M}y_i \end{array}\right.$

通过 $\left\{\begin{array}{lr}\omega \Leftarrow \omega - \nabla_{\omega}L(\omega, b)\centerdot\alpha\\b \Leftarrow b - \nabla_{b}L(\omega, b)\centerdot\alpha\end{array}\right.$ 分别对误分类点的 $L o s s$ $f u n c t i o n$ 中的 $\omega$ 和 $b$ 更新，即如下迭代方式：

$\omega \Leftarrow \omega + \alpha\centerdot\sum\limits_{x_i\in M}y_ix_i$ $\Leftarrow b + \alpha\centerdot\sum\limits_{x_i\in M}y_i$

以上即为感知器相关公式推导。

晨哥是个好演员

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
感知器公式推导

感知器推导总结我们知道当 x∈Rx \in \mathbb{R}x∈R，若规定 yyy 的取值只能为 {1,−1}\{1, -1\}{1,−1}，那么我们的决策边界函数为：f(x)=sign(ωTx+b)f(x) = sign(\omega^Tx+b)f(x)=sign(ωTx+b)其中上式的 signsignsign 函数用于判断选择最后 yyy 的取值。sign(a)={1,a⩾0−1,a⩽0sign(a) = \left\{\begin{array}{rr} 1, a\geqslant0\\-1
复制链接

扫一扫