误差传播算法

最新推荐文章于 2023-01-22 09:46:55 发布

qq_43133135

最新推荐文章于 2023-01-22 09:46:55 发布

阅读量3.5k

点赞数

分类专栏：人工智能文章标签：人工智能误差传播神经网络

本文链接：https://blog.csdn.net/qq_43133135/article/details/96726943

版权

人工智能专栏收录该内容

21 篇文章 2 订阅

订阅专栏

误差传播

误差种类及来源

测量学中，真值X减去测量值Li被称为误差（观测误差）：
$\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\quad Δ_i=L_i-X$
误差可分为：
                 1、粗差 $Δ_c$
                 2、系统误差 $Δ_x$
                 3、偶然误差 $Δ_o$
偶然误差的特点就是，当观测次数无限时，误差均值为0:

$\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\quad \lim_{n\to \infty}\frac{\Delta 1+\Delta 2.......+\Delta n)}{n}= \lim_{n\to \infty}\frac{[\Delta_o])}{n}=0$
当然，这些今天的重点，我们知道误差 $Δ=Δ_c+Δ_x+Δ_o$ 就够了。

观测精度

中误差通常用来衡量精度：
$\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\quad m= \pm \sqrt{\frac{[\Delta^2])}{n}}=0$

误差正向传播

正向传播是一个已知各项变量测量误差推求函数变换后的总误差的过程。
设 $Z$ 是独立变量 $X_1,X_2……X_n$ 的函数：
$Z=f(X_1,X_2……X_n)$
假设中误差为 $m_z$ 各变量的观测误差为 $m_1,m_2……m_n$ ，我们便可以通过各变量的观测值中误差来推求出函数的中误差：
$设：X_i=L_i-\Delta_i$
$\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\quad$ 其中 $L_i$ 为观测值， $\Delta_i$ 为误差
则函数 $Z$ 为： $Z=f(L_1-\Delta_1,L_2-\Delta_2……L_n-\Delta_n)$
对其进行泰勒展开，取前两项: $f (x) = f (x 0) + f^{'} (x 0) (x - x 0)$ 有： $Z=f(L_1,L_2……L_n)-(\frac{\partial{f}}{\partial{X_1}}\Delta_1+(\frac{\partial{f}}{\partial{X_2}}\Delta_2……(\frac{\partial{f}}{\partial{X_n}}\Delta_n)$
所以函数 $Z$ 的中误差为： $\Delta_z=(\frac{\partial{f}}{\partial{X_1}}\Delta_1+(\frac{\partial{f}}{\partial{X_2}}\Delta_2……(\frac{\partial{f}}{\partial{X_n}}\Delta_n)$

当然，这只是观测一次，当观测多次时，我们能推出如下表格：

函数名称	函数式	中误差传播公式
倍数函数	$Z = A X$	$m_Z=\pm Am$
和差函数	$Z=X_1\pm X_2……\pm X_2$	$m_Z=\pm \sqrt{m_1^2+m_2^2……+m_n^2}$
线性函数	$Z=AX_1\pm AX_2……\pm AX_2$	$m_Z=\pm \sqrt{A_1^2m_1^2+A_2^2m_2^2……+A_n^2m_n^2}$

误差反向传播

反向传播是一个已知函数变换后的总误差推求各项变量误差的过程。
$\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad$ 在这里插入图片描述
假设如上测量过程，我们以A为起点（设高度为0）沿箭头方向测
当我们到B点时，高度增加了 $D_ab=+5cm$ ，高度为 $L_b=0+D_ab=5cm$
到c点时，高度增加了 $D_bc=-3cm$ ，高度为 $L_c=L_b+D_bc=2cm$
回到A点时，高度增加了 $D_ca=-3cm$ ，高度为 $L_a=L_c+D_ca=1cm$ 。
所以在A点时出问题了，高度既是0又是1，这就是测量误差导致的，我们可以用如下方法纠正误差：

总误差 $\Delta_Z=0-1=1cm$ ，求 $A B$ 段误差为 $\Delta_1=？cm$ ， $B C$ 段误差为 $\Delta_2=？cm$ ， $C A$ 段误差为 $\Delta_3=？cm$

我们可以将总误差平均到各段路程中去：
总路程： $S = 3 + 4 + 5 = 12 m$ ，则：

$\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad$ $A B$ 段误差为 $\Delta_1=\frac{S_ab}{S}\Delta_Z=\frac{3\Delta_Z}{12}cm$

$\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad$ $B C$ 段误差为 $\Delta_2=\frac{S_bc}{S}\Delta_Z=\frac{4\Delta_Z}{12}cm$

$\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad$ $C A$ 段误差为 $\Delta_3=\frac{S_ca}{S}\Delta_Z=\frac{5\Delta_Z}{12}cm$

然后对测量值进行修正 $(X_i=L_i-\Delta_i)$ ：

$\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad$ $B$ 点高度 $X_b=L_b-\Delta_1=(0+5-\frac{3}{12})cm$

$\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad$ $C$ 点高度 $X_c=X_b-\Delta_1=5-3-(\frac{3}{12}+\frac{4}{12})cm$

$\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad$ $A$ 点高度 $X_a=X_c-\Delta_1=5-3-1-(\frac{3}{12}+\frac{4}{12}+\frac{5}{12})=0cm$

这样我们就解决了测量上误差不闭合的问题。不过测量中，我们所用到的函数是简单的和差函数 $D=D_ab+D_bc+D_ca$ 。

神经网络中，我们用的是向量函数的误差传播：
假设只有一层神经元：
$\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad$ $\overrightarrow{out}=f(A\overrightarrow{X})$
其中我们的A是一个齐次坐标变换矩阵。为了简化分析，我们采用两个神经元组成一层：
$\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad$ 在这里插入图片描述
我们可以写成二维向量函数形式：
$\begin{bmatrix} O_1 \\ O_2 \\ \end{bmatrix}=f(\begin{bmatrix} w11& w21 \\ w12&w22 \\ \end{bmatrix}*\begin{bmatrix} x_1 \\ x_2 \\ \end{bmatrix}+\begin{bmatrix} b_1 \\ b_2 \\ \end{bmatrix})$
也可以写成三维向量式：
$\begin{bmatrix} O_1 \\ O_2 \\ O_3 \end{bmatrix}=f(\begin{bmatrix} w11& w21 &b1\\ w12&w22 &b2\\ 0&0&1 \end{bmatrix}*\begin{bmatrix} x_1 \\ x_2 \\ x_0 \end{bmatrix})$
那么问题就来了，随便丢了一个权重矩阵A，得到了输出向量，我们该怎么修正权重。
我们可以把输出进行单独分析，比如，只分析 $O_1$ 的输出和目标差了多少，假设目标值(真值)为 $O_b$ ，那么误差为： $\Delta_o=O_1-O_b$
很显然： $O_1=f(w11*x_1+w21*x_2+b1*x_0)$
我们为了方便分析，拆分为如下两个函数：’

$u_1=w11*x_1+w21*x_2+b1*x_0$ ；

$O_1=f(u)$ ；

$函数u_1$ 是简单的线性函数，做误差传播分析很容易
$函数O_1$ 是非线性函数，误差传播势必需要用微分求导：

$\Delta O_1=\Delta f(u)=\frac{ \Delta f(u)}{\Delta u}*\Delta u=f'(u)*\Delta u$ ；

$\Delta u_1=\Delta w11*x_1+\Delta w21*x_2+\Delta b1*x_0$ ；

假设我们使用的传递函数为 $s i g m o i d$ 函数，那么 $O_1=f(u)=\frac{1}{1+e^-u}$ ,导数为 $f^{'} (u) = f (u) (1 - f (u))$
所以： $\Delta O_1=f'(u)*\Delta u=f(u)(1-f(u))*(\Delta w11*x_1+\Delta w21*x_2+\Delta b1*x_0)$
即： $\Delta O_1=f'(u)*x_1*\Delta w11+f'(u)*x_2*\Delta w21+f'(u)*x_0*\Delta b1)$
我们令 $K_i=f'(u)*x_i$ ，改写为 $\Delta O_1=K_1*\Delta w11+K_2*\Delta w21+K_0*\Delta b1)$

很显然， $\Delta O_1$ 不仅仅和 $w 11$ 相关，就像前面测量中的误差不仅仅由一段距离产生，但是前面我们能通过按距离平差的方式将误差平均到各段中去，这里并没有距离之类的参考信息进行平差.
或者假设我们可以假设：总路程： $S=K_1+K_2+K_3$
那么： $\Delta w11=\frac{1}{S}*\Delta O_1*K_i)$

当我们令 $\alpha=\frac{1}{S}$ 时，我们可得 $\Delta w11=\alpha *\Delta O_1*K_i$

所以我们在神经网络中可以这么更新的权重的：
$w_i\longleftarrow w_i-\alpha*\Delta O_1*K_i$

当然，我们这里使用的误差是测量值减真值，但大部分机器学习中误差是真值减去测量值，即如下：
$E=O_t-O$
其中 $O_t$ 是用来教学的教师数据， $O$ 才是实际输出，所以和本文中的更新刚好相反：

$w_i\longleftarrow w_i+\alpha*\Delta_O*K_i$

qq_43133135

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
误差传播算法

误差传播误差种类及来源观测精度误差正向传播误差反向传播误差种类及来源测量学中，真值X减去测量值Li被称为误差（观测误差）：Δi=Li−X\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\quad Δ_i=L_i-XΔi=Li−X误差可分为：       &...
复制链接

扫一扫

专栏目录