感知器与线性单元

最新推荐文章于 2023-09-18 20:09:30 发布

Lee_Sung

最新推荐文章于 2023-09-18 20:09:30 发布

阅读量2.3k

点赞数 1

分类专栏：机器学习文章标签：机器学习感知器线性单元

本文链接：https://blog.csdn.net/SungLee_1992/article/details/53068829

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

感知器

隐藏层：输入层和输出层之间的层叫隐藏层，隐藏层比较多（大于2）的神经网络叫做深度神经网络。
感知器：神经元是神经网络的组成单元，神经元也叫感知器。一个感知器有如下组成部分：
- 输入权值：一个感知器可以接收多个输入x，每个输入上有一个权值**w，此外还有一个偏置项**b；
- 激活函数：f(z)；
- 输出：感知器的输出有下面公式(1)计算： $y = f (w * x + b)$ $y=f(w*x+b)$
感知器训练算法：用来获取权重项和偏移项。首先，将权重项和偏移项初始化为0，然后利用下面的感知器规则迭代的修改 $w_i$ 和 $b$ ,直到训练完成。

$w \leftarrow w i + Δ w i$ $w←w_i+\Delta w_i$

$b \leftarrow b + Δ b$ $b←b+\Delta b$

其中：

$Δ w i = η (t - y) x i$ $\Delta w_i = \eta(t-y)x_i$

$Δ b = η (t - y)$ $\Delta b = \eta (t-y)$

$w_i$ 是与输入 $x_i$ 对应的权重项， $b$ 是偏置项。事实上，可以把 $b$ 看作是值永远为1的输入所对应的权重。 $t$ 是训练样本的实际值，一般称之为label。而是 $y$ 感知器的输出值,根据公式（1）计算得出。 $\eta$ 是一个成为学习速率的常数，其作于是控制每一步调整的权值。
感知器不仅仅能实现简单的布尔运算（可以看做是一个二分类问题），他可以拟合任何线性函数，任何线性分类或线性回归问题都可以用感知器来解决。

线性单元

y = h (x) = w * x + b

$y=h(x)=w*x+b$

模型： $y=h(x)=W^T+b$ , 其中 $b=w_0*x_0$ ,且 $x_0=1$ .
单个样本的误差：
$e = 1 2 (y - y') 2$ $e={1 \over 2}(y-y')^2$ $y$ 表示训练样本的标记，即实际值， $y'$ $y'$ 表示由模型计算出的预测值。
用所有样本的误差和来表示模型的误差E，如下：

$E = 1 2 (e (1) + e (2) + . . . + e (n)) = 1 2 \sum i = 0 n [y (i) - y' (i)] 2$ $E={1 \over2}(e^{(1)}+e^{(2)}+...+e^{(n)})={1\over2}\sum_{i=0}^n[y^{(i)}-y'^{(i)}]^2$

其中, $y'^{(i)}=h(x^{(i)})=W^Tx^{(i)},x^{(i)}$ 表示第 $i$ 个训练样本的特征， $y'^{(i)}$ 表示对应的标记.

目标函数：
$E (w) = 1 2 \sum i = 0 n [y (i) - y' (i)] 2 = 1 2 \sum i = 0 n [y (i) - W T x (i)] 2$ $E(w)={1\over2}\sum_{i=0}^n[y^{(i)}-y'^{(i)}]^2={1\over2}\sum_{i=0}^n[y^{(i)}-W^Tx^{(i)}]^2$
梯度下降（上升）优化算法，随机梯度下降（上升）优化算法（SGD）

$x n e w = x o l d - η ▽ f (x)$ $x_{new}=x{old}-\eta\triangledown f(x)$

其中，
$η 为步长，即学习速率， ▽ f (x) 为 f (x) 的梯度$ $\eta 为步长，即学习速率，\triangledown f(x) 为f(x)的梯度$
对于目标函数，有：

$w_{new} = w_{old}-\eta \triangledown E(w)$

其中，
$▽ E (w) = - \sum i = 0 n (y (j) - y' (j)) x (j)$ $\triangledown E(w)=-\sum_{i=0}^n (y^{(j)}-y'^{(j)})x^{(j)}$
即：
$w n e w = w o l d + η \sum j = 0 n (y (j) - y' (j)) x (j)$ $w_{new} = w_{old}+ \eta\sum_{j=0}^n(y^{(j)}-y'^{(j)})x^{(j)}$