机器学习公式推导【Day7】神经网络感知机

最新推荐文章于 2024-03-29 17:20:31 发布

conquer997

最新推荐文章于 2024-03-29 17:20:31 发布

阅读量458

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_43246110/article/details/105353389

版权

机器学习专栏收录该内容

25 篇文章 12 订阅

订阅专栏

神经网络感知机

1、感知机模型
2、感知机学习策略
3、感知机学习算法

（本文为个人学习总结笔记）

5.1
$w_{i} \leftarrow w_{i}+\Delta w_{i}$

5.2
$\Delta w_{i}=\eta(y-\hat{y}) x_{i}$

此公式是感知机学习算法中的参数更新公式，下面依次给出感知机模型、学习策略和学习算法的具体介绍。

1、感知机模型

已知感知机由两层神经元组成，故感知机模型的公式可表示为：

$y=f\left(\sum_{i=1}^{n} w_{i} x_{i}-\theta\right)=f\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}-\theta\right)$

其中， $\boldsymbol{x} \in \mathbb{R}^{n}$ 为样本的特征向量，是感知机模型的输入； $\boldsymbol{w}, \theta$ 是感知机模型的参数， $\boldsymbol{w} \in \mathbb{R}^{n}$ 为权重， $\theta$ 为阈值。假定 $f$ 为阶跃函数，那么感知机模型的公式可进一步表示为:
$y=\operatorname{sgn}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}-\theta\right)=\left\{\begin{array}{ll} 1, & \boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}-\theta \geq 0 \\ 0, & \boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}-\theta<0 \end{array}\right.$
由于 $n$ 维空间中的超平面方程为:
$w_{1} x_{1}+w_{2} x_{2}+\cdots+w_{n} x_{n}+b=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b=0$

所以此时感知机模型公式中的 $\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}-\theta$ 可以看作是 $n$ 维空间中的一个超平面，通过它将 $n$ 维空间划分为 $\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}-\theta \geq 0$ 和 $w^{\mathrm{T}} x-\theta<0$ 两个子空间，落在前一个子空间的样本对应的模型输出值为1，落在后一个子空间的样本对应的模型输出值为0，以此来实现分类功能。

2、感知机学习策略

给定一个线性可分的数据集 $T$ （参见附录①），感知机的学习目标是求得能对数据集 $T$ 中的正负样本完全正确划分的分离超平面：
$\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}-\theta=0$

假设此时误分类样本集合为 $M\subseteq T$ 对任意一个误分类样本 $(\boldsymbol{x},y)\in M$ 来说，当 $\boldsymbol{w}^\mathrm{T}\boldsymbol{x}-\theta \geq 0w T$ 时，模型输出值为 $\hat{y}=1$ ，样本真实标记为 $y = 0$ ；反之，当 $\boldsymbol{w}^\mathrm{T}\boldsymbol{x} −θ<0$ 时，模型输出值为 $\hat{y}=0$ ，样本真实标记为 $y = 1$ 。综合两种情形可知，以下公式恒成立
$(\hat{y}-y)\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}-\theta\right) \geq 0$
所以，给定数据集 $T$ ，其损失函数可以定义为：
$L(\boldsymbol{w}, \theta)=\sum_{\boldsymbol{x} \in M}(\hat{y}-y)\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}-\theta\right)$

显然，此损失函数是非负的。如果没有误分类点，损失函数值是0。而且，误分类点越少，误分类点离超平面越近，损失函数值就越小。因此，给定数据集 $T$ ，损失函数 $L(\boldsymbol{w},\theta)$ 是关于 $\boldsymbol{w},{\theta}$ 的连续可导函数。

3、感知机学习算法

感知机模型的学习问题可以转化为求解损失函数的最优化问题，具体地，给定数据集
$T=\left\{\left(\boldsymbol{x}_{1}, y_{1}\right),\left(\boldsymbol{x}_{2}, y_{2}\right), \ldots,\left(\boldsymbol{x}_{N}, y_{N}\right)\right\}$
其中 $\boldsymbol{x}_i \in \mathbb{R}^n,y_i \in \{0,1\}$ ，求参数 $\boldsymbol{w},{θ}$ ，使其为极小化损失函数的解：
$\min _{\boldsymbol{w}, \theta} L(\boldsymbol{w}, \theta)=\min _{\boldsymbol{w}, \theta} \sum_{\boldsymbol{x}_{\boldsymbol{i}} \in M}\left(\hat{\boldsymbol{y}}_{i}-y_{i}\right)\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}-\theta\right)$
其中 $M\subseteq T$ 为误分类样本集合。若将阈值 $\theta$ 看作一个固定输入为 $- 1$ 的“哑节点”，即:
$-\theta=-1 \cdot w_{n+1}=x_{n+1} \cdot w_{n+1}$

那么 $\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i-\theta$ 可化简为:
$\begin{aligned} \boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}-\theta &=\sum_{j=1}^{n} w_{j} x_{j}+x_{n+1} \cdot w_{n+1} \\ &=\sum_{j=1}^{n+1} w_{j} x_{j} \\ &=\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i} \end{aligned}$

其中 $\boldsymbol{x_i} \in \mathbb{R}^{n+1},\boldsymbol{w} \in \mathbb{R}^{n+1}$ 。根据该式，可将要求解的极小化问题进一步简化为:
$\min _{\boldsymbol{w}} L(\boldsymbol{w})=\min _{\boldsymbol{w}} \sum_{\boldsymbol{x}_{\boldsymbol{i} \in M}}\left(\hat{y}_{i}-y_{i}\right) \boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}_{i}$

假设误分类样本集合 $M$ 固定，那么可以求得损失函数 $L(\boldsymbol{w})$ 的梯度为：

$\nabla_{\boldsymbol{w}} L(\boldsymbol{w})=\sum_{\boldsymbol{x}_{\boldsymbol{i} \in M}}\left(\hat{y}_{i}-y_{i}\right) \boldsymbol{x}_{i}$

感知机的学习算法具体采用的是随机梯度下降法，也就是极小化过程中不是一次使 $M$ 中所有误分类点的梯度下降，而是一次随机选取一个误分类点使其梯度下降。所以权重 $\boldsymbol{w}$ 的更新公式为:
$\begin{array}{c} \boldsymbol{w} \leftarrow \boldsymbol{w}+\Delta \boldsymbol{w} \\ \Delta \boldsymbol{w}=-\eta\left(\hat{y}_{i}-y_{i}\right) \boldsymbol{x}_{i}=\eta\left(y_{i}-\hat{y}_{i}\right) \boldsymbol{x}_{i} \end{array}$

相应地， $\boldsymbol{w}$ 中的某个分量 $w_i$ 的更新公式即为公式(5.2)。

conquer997

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习公式推导【Day7】神经网络感知机

神经网络感知机1、感知机模型2、感知机学习策略3、感知机学习算法（本文为个人学习总结笔记）5.1wi←wi+Δwiw_{i} \leftarrow w_{i}+\Delta w_{i}wi←wi+Δwi5.2Δwi=η(y−y^)xi\Delta w_{i}=\eta(y-\hat{y}) x_{i}Δwi=η(y−y^)xi此公式是感知机学习算法中的参数更新公式，下面依次...
复制链接

扫一扫