Continuous Learning of Context-dependent Processing in Neural Networks
作者: Guanxiong Zeng, Yang Chen, Bo Cui and Shan Yu
5 Oct 2018
今天下午陈阳师兄来讲他最近的工作,感觉挺巧妙的,主要是解决两个问题,神经网络会遗忘和连续学习的问题。
Orthogonal Weights Modification (OWM)
一个神经网络先学习一个任务,训练完成后,再进行另外一个任务的训练,往往会将第一个任务遗忘。但人脑并不是这样,这个方法就是要解决这个问题。给两个任务先后学习,给两个任务的输入,希望神经网络的结果都是正确的。
我的理解是这个方法的原理是利用正交空间的思想,使得学习第二个任务时候不影响第一个任务的解:
y = W ⋅ x y=W\cdot x y=W⋅x
y = ( W + Δ W ) ⋅ x y=(W+\Delta W)\cdot x y=(W+ΔW)⋅x
只要学习时更新权重的方向 Δ W \Delta W ΔW与原来的输入 x x x都正交,就不会影响原来的解。由矩阵论的性质可知,正交投影矩阵
P = I − A ( A T A + α I ) − 1 A T P=I-A(A^TA+\alpha I)^{-1}A^T P=I−A(ATA+αI)−1AT
A = [ x 1 , x 2 , . . . , x n ] A=[x_1,x_2,...,x_n] A=[x1,x2,...,xn]
满足这个性质。即任意一个向量 b b b,都可以分解成原来的输入空间 A A A上的分量和与 A A A正交的分量,先用最小二乘法求解输入空间 A A A上的分量有
b = A ⋅ k b=A\cdot k b=A⋅k
A T = A T A ⋅ k A^T=A^TA\cdot k AT=ATA