可微神经计算机(Differentiable neural computer)的介绍

最新推荐文章于 2024-11-22 10:38:43 发布

bush_nj

最新推荐文章于 2024-11-22 10:38:43 发布

阅读量3.4k

点赞数

分类专栏：深度学习文章标签： DNC Differentiable Neural Computer 可微神经计算机 memory network 记忆网络

本文链接：https://blog.csdn.net/bush_nj/article/details/80512604

版权

深度学习专栏收录该内容

1 篇文章

订阅专栏

本文介绍了可微神经计算机(DNC)的基本原理与架构，详细解析了其控制器与存储器的工作机制，包括控制信息向量、存储器读写机制等内容。探讨了DNC如何通过结合注意力机制和动态内存分配等策略解决长时记忆问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

可微神经计算机的介绍

可微神经计算机的介绍

一、介绍

如今，人工神经网络已经在模式识别、序列学习和强化学习方面表现出色，但因为没有额外的存储机制，使得在表示变量和需要存储长时间数据的情况下，神经网络的能力被有所限制。本文将基于Deepmind于2016年发表在《自然》杂志上的文章，对文章中所提出的可微神经计算机(Differentiable neural computer)进行一定的介绍，并针对Deepmind开源在Github上的代码进行一定的分析。

可微神经计算机（之后简称DNC）的一个单元(cell)主要由一个控制器和一个存储器构成，如图所示：
Figure 1: DNC architecture.

这里写图片描述
其中，控制器可以是人工神经网络，也可以是其他的机器学习模型；存储器可以理解为由读写头、内存单元和一些保存存储状态的单元组成。下面介绍控制器、存储器和两者之间的数据交互。

在介绍DNC单元之前，本节将补充一点我在实现代码过程中的一点经验。在构造一个复杂的变量之前，我们需要考虑该变量的以下几个方面：
变量类型(e.g. float32, int64)，
变量形状(e.g. [batch_size, time, length])，
变量范围(e.g. $\alpha \in [0, 1]$ )，
变量之间关系(e.g. $\sum_{i=0}^{n} \alpha_{i}\leqslant 1$ ) 。

二、控制器

论文上所用的控制器结构是一个变体的LSTM，在此简称 $\eta$ 。

在某一时刻 t ， $\eta$ 获得一个输入向量 $x_{t} \in \mathbb{R}^{X}$ 。另外，在t-1时刻，存储器从存储单元 $M_{t-1} \in \mathbb{R}^{N \times W}$ 中读取 $R$ 个向量: $r_{t-1}^{1}, ..., r_{t-1}^{R}$ ，其中 $r_{t-1}^{i} \in \mathbb{R}^{W}$ 。这样将向量 $x_{t}$ 与 $R$ 个读出的向量做连接(concatenate)操作，得控制器 $\eta$ 在t时刻的输入为

χt=[xt;r1t−1;...;rRt−1] χ t = [ x t ; r t − 1 1 ; . . . ; r t − 1 R ] $\chi _{t} = [x_t; r_{t-1}^{1}; ...; r_{t-1}^{R}]$ 。
那么，对于有1个隐藏层的lstm网络（而论文中叙述的是一个多层lstm），隐藏层的输入门为：

it=σ(Wi[χt;ht−1]+bi) i t = σ ( W i [ χ t ; h t − 1 ] + b i ) $i_{t} = \sigma(W_{i}[\chi_{t}; h_{t-1}] + b_{i})$ ；
遗忘门为：

ft=σ(Wf[χt;ht−1]+bf) f t = σ ( W f [ χ t ; h t − 1 ] + b f ) $f_{t} = \sigma(W_{f}[\chi_{t}; h_{t-1}] + b_{f})$ ；
状态更新：

st=ftst−1+ittanh(Ws[χt;ht−1]+bs) s t = f t s t − 1 + i t t a n h ( W s [ χ t ; h t − 1 ] + b s ) $s_{t} = f_{t}s_{t-1} + i_{t}tanh(W_{s}[\chi_{t}; h_{t-1}] + b_{s})$ ；
输出门为：

ot=σ(Wo[χt;ht−1]+bo) o t = σ ( W o [ χ t ; h t − 1 ] + b o ) $o_{t} = \sigma(W_{o}[\chi_{t}; h_{t-1}] + b_{o})$ ；
最后隐藏层输出：

ht=ottanh(st) h t = o t t a n h ( s t ) $h_{t} = o_{t}tanh(s_{t})$ 。

论文要求，
在t时刻，控制网络 $\eta$ 需要产生输出向量 $\vartheta_{t} \in \mathbb{R}^{Y}$ ，并产生控制信息向量 $\xi_{t} \in \mathbb{R}^{WR+3W+5R+3}$ ，定义如下：

ϑt=Wϑht ϑ t = W ϑ h t $\vartheta_{t} = W_{\vartheta}h_{t}$ ；

ξt=Wξht ξ t = W ξ h t $\xi_{t} = W_{\xi}h_{t}$ 。

最后， $\eta$ 产生一个输出向量 $y_{t} \in \mathbb{R}^{Y}$ ，即目标向量 $z_{t} \in \mathbb{R}^{Y}$ 的预测向量（对于监督学习）， $\eta$ 的输出向量 $y_{t}$ 定义如下：

yt=ϑt+Wr[r1t;...;rRt] y t = ϑ t + W r [ r t 1 ; . . . ; r t R ] $y_{t} = \vartheta_{t} + W_{r}[r_{t}^{1}; ...; r_{t}^{R}]$

三、控制信息向量

对控制信息向量 $\xi_{t} \in \mathbb{R}^{WR+3W+5R+3}$ 进行细分(subdivid)，得到如下控制信息：

ξt=[kr,1t;...;kr,Rt;βr,1t^;...;βr,Rt^;kwt;βwt^;et^;vt;f1t^;...;fRt^;gat^;gwt^;π1t^;...;πRt^] ξ t = [ k t r , 1 ; . . . ; k t r , R ; β t r , 1 ^ ; . . . ; β t r , R ^ ; k t w ; β t w ^ ; e t ^ ; v t ; f t 1 ^ ; . . . ; f t R ^ ; g t a ^ ; g t w ^ ; π t 1 ^ ; . . . ; π t R ^ ] $\xi_{t} = [k_{t}^{r,1}; ...; k_{t}^{r,R}; \hat {\beta_{t}^{r,1}}; ...; \hat {\beta_{t}^{r,R}}; k_{t}^{w}; \hat {\beta_{t}^{w}}; \hat {e_{t}}; v_{t}; \hat {f_{t}^{1}}; ...; \hat {f_{t}^{R}}; \hat {g_{t}^{a}}; \hat {g_{t}^{w}}; \hat {\pi_{t}^{1}}; ...; \hat {\pi_{t}^{R}}]$

在介绍控制信息之前，本节需要引入一个变量空间 $S_{N}$ ，定义如下：

SN={α∈ℝN:α∈[0,1],∑Ni=1αi=1} S N = { α ∈ R N : α ∈ [ 0 , 1 ] , ∑ i = 1 N α i = 1 } $S_{N} = \left \{ \alpha \in \mathbb {R}^{N}: \alpha \in [0, 1], \sum_{i=1}^{N} \alpha_{i} = 1 \right \}$

对于读写一块内存矩阵 $M \in \mathbb{R}^{N \times W}$ ，存储器需要很多控制信息，论文要求有10种控制信息，这10种信息主要分两类：控制写与控制读，定义如下：

R read keys:

{kr,it∈ℝW;1⩽i⩽R} { k t r , i ∈ R W ; 1 ⩽ i ⩽ R } $\left \{ k_{t}^{r, i} \in \mathbb {R}^{W}; 1 \leqslant i \leqslant R \right \}$

R read strengths:

{βr,it=oneplus(βr,it^)∈[1,∞];1⩽i⩽R} { β t r , i = o n e p l u s ( β t r , i ^ ) ∈ [ 1 , ∞ ] ; 1 ⩽ i ⩽ R } $\left \{ \beta_{t}^{r, i} = oneplus(\hat {\beta_{t}^{r,i}}) \in [1, \infty]; 1 \leqslant i \leqslant R \right \}$

R free gates:

{fit=σ(fit^)∈[0,1];1⩽i⩽R} { f t i = σ ( f t i ^ ) ∈ [ 0 , 1 ] ; 1 ⩽ i ⩽ R } $\left \{ f_{t}^{i} = \sigma (\hat {f_{t}^{i}}) \in [0, 1]; 1 \leqslant i \leqslant R \right \}$

R read modes:

{πit=softmax(πit^)∈S3;1⩽i⩽R} { π t i = s o f t m a x ( π t i ^ ) ∈ S 3 ; 1 ⩽ i ⩽ R } $\left \{ \pi_{t}^{i} = softmax (\hat {\pi_{t}^{i}}) \in S_{3} ; 1 \leqslant i \leqslant R \right \}$

the write key:

kwt∈ℝW k t w ∈ R W $k_{t}^{w} \in \mathbb {R}^{W}$

the write strength:

βwt=oneplus(βw^)∈[1,∞] β t w = o n e p l u s ( β w ^ ) ∈ [ 1 , ∞ ] $\beta_{t}^{w} = oneplus(\hat {\beta_{w}}) \in [1, \infty]$

the erase vector:

et=σ(et^)∈[0,1]W e t = σ ( e t ^ ) ∈ [ 0 , 1 ] W $e_{t} = \sigma (\hat {e_{t}}) \in [0, 1]^{W}$

the write vector:

vt∈ℝW v t ∈ R W $v_{t} \in \mathbb {R}^{W}$

the allocation gate:

gat=σ(gat^)∈[0,1] g t a = σ ( g t a ^ ) ∈ [ 0 , 1 ] $g_{t}^{a} = \sigma (\hat {g_{t}^{a}}) \in [0, 1]$

the write gate:

gwt=σ(gwt^)∈[0,1] g t w = σ ( g t w ^ ) ∈ [ 0 , 1 ] $g_{t}^{w} = \sigma (\hat {g_{t}^{w}}) \in [0, 1]$

对于上述控制信息的使用，将在下面的部分介绍。

四、存储器读写机制

论文规定，DNC单元在将向量写入内存矩阵 $M_{t}^{N \times W}$ 时，利用 content-base addressing 和 dynamic memory allocation 两种寻址方式的组合，以确定哪些内存空间是可以写入的。DNC单元在从内存单元 $M_{t}^{N \times W}$ 读取向量时，利用 content-base addressing 和 temporal memory linkage 两种寻址方式的组合，以确定哪些内存空间是需要读出的。由此可知，共有3种寻址方式被利用进行读写，下面的部分将分别介绍这3种寻址机制，并解释如何写入和读取内存单元。

在介绍3中寻址机制之前，本节需要引入另一个变量空间 $\Delta N$ ，定义如下：

ΔN={α∈ℝN:αi∈[0,1],∑Ni=1αi⩽1} Δ N = { α ∈ R N : α i ∈ [ 0 , 1 ] , ∑ i = 1 N α i ⩽ 1 } $\Delta N = \left \{ \alpha \in \mathbb {R}^{N}: \alpha_{i} \in [0, 1], \sum _{i=1}^{N} \alpha_{i} \leqslant 1 \right \}$

写操作

写操作，利用一个write weighting $w_{t}^{w} \in \Delta N$ ，并通过控制信息中的the erase vector: $e_{t} = \sigma (\hat {e_{t}}) \in [0, 1]^{W}$ 和 the write vector: $v_{t} \in \mathbb {R}^{W}$ 对内存矩阵进行操作，操作如下：

Mt=Mt−1⊙(E−wwtet)+wwtvt M t = M t − 1 ⊙ ( E − w t w e t ) + w t w v t $M_{t} = M_{t-1} \odot (E - w_{t}^{w}e_{t}) + w_{t}^{w}v_{t}$

其中，write weighting $w_{t}^{w} \in \Delta N$ 将在通过下文所述的寻址机制进行获取。

读操作

论文规定，利用R个read weighting $\left \{w_{t}^{r, 1}, ..., w_{t}^{r, R}\right \}, w_{t}^{r, i} \in \Delta N$ 从内存矩阵中读出R个read vector $\left \{ r_{t}^{1}, ... , r_{t}^{R} \right \}, r_{t}^{i} \in R^{W}$ ，操作如下：

rit=MTtwr,it r t i = M t T w t r , i $r_{t}^{i} = M_{t}^{T}w_{t}^{r,i}$

其中，R个read weighting $\left \{w_{t}^{r, 1}, ..., w_{t}^{r, R}\right \}, w_{t}^{r, i} \in \Delta N$ 将在通过下文所述的寻址机制进行获取。

4.1 Content-based addressing

Content-based addressing 机制可以理解为一种attention机制。论文规定，对于内存矩阵 $M \in \mathbb{R}^{N \times W}$ 中的第i个内存单元 $M[i] \in \mathbb {R}^{1 \times W}$ 在read 或 write 时所分配的比重 $C(M, k, \beta)[i]$ 定义如下：

C(M,k,β)[i]=exp{D(k,M[i,:])β}∑jexp{D(k,M[j,:])β} C ( M , k , β ) [ i ] = e x p { D ( k , M [ i , : ] ) β } ∑ j e x p { D ( k , M [ j , : ] ) β } $C(M, k, \beta)[i] = \frac{exp \left \{ D(k, M[i, :])\beta \right \}} {\sum_{j} exp \left \{D(k, M[j, :]) \beta \right \}}$

其中，函数 $D(u, v)$ 是求两个向量之间的余弦值，以余弦值来衡量两个向量之间的相关程度，定义如下：

D(u,v)=u⋅v|u||v| D ( u , v ) = u ⋅ v | u | | v | $D(u, v) = \frac {u \cdot v} {|u||v|}$

由以上定义可知， $C(M, k, \beta) \in S_{N}$ 确定了read head 和 write head 在内存矩阵 $M \in \mathbb{R}^{N \times W}$ 上对各个内存单元 $M[i] \in \mathbb {R}^{1 \times W}$ 的读写比重。

4.2 Dynamic memory allocation

在某些情况下，我们需要对内存矩阵 $M_{t}^{N \times W}$ 中的某些内存单元进行释放并重新分配，所以论文加入Dynamic memory allocation 机制。

存储器用 $u_{t} \in [0, 1]^{N}$ 表示在t时刻内存单元的使用情况，并定义开始时刻 $u_{0} = 0$ 。存储器在写入向量之前，需要确定哪些内存单元是可以被覆盖掉的，这就需要一个链表 free list 来表示覆写内存单元的顺序。存储器用 $\psi_{t} \in [0, 1]^{N}$ 表示每个内存单元将被保留多少，定义如下：

ψt=∏Ri=1(1−fitwr,it−1) ψ t = ∏ i = 1 R ( 1 − f t i w t − 1 r , i ) $\psi_{t} = \prod_{i = 1}^{R}(1-f_{t}^{i}w_{t-1}^{r,i})$

则 $u_{t}$ 可以被定义如下：

ut=(ut−1+wwt−1⋅(1−ut−1))⋅ψt u t = ( u t − 1 + w t − 1 w ⋅ ( 1 − u t − 1 ) ) ⋅ ψ t $u_{t} = (u_{t-1} + w_{t-1}^{w} \cdot (1-u_{t-1})) \cdot \psi_{t}$

之后，对 $u_{t}$ 进行升序排列，将排序后的索引所形成的排列作为 free list $\phi_{t} \in \mathbb {Z}^{N}$ 。

这样，在t时刻，在Dynamic memory allocation 机制中，各个内存单元的写入权重the allocation weighting $a_{t} \in \Delta N$ ，可以定义为：

at[ϕt[j]]=(1−ut[ϕt[j]])∏j−1i=1ut[ϕt[i]] a t [ ϕ t [ j ] ] = ( 1 − u t [ ϕ t [ j ] ] ) ∏ i = 1 j − 1 u t [ ϕ t [ i ] ] $a_{t} [\phi_{t}[j]] = (1 - u_{t}[\phi_{t}[j]])\prod_{i = 1}^{j-1}u_{t}[\phi_{t}[i]]$

Write weight

综上所述，论文将各个内存单元在t时刻的写入权重 $w_{t}^{w} \in \Delta N$ 定义如下：

wwt=gwt[gatat+(1−gat)cwt] w t w = g t w [ g t a a t + ( 1 − g t a ) c t w ] $w_{t}^{w} = g_{t}^{w} [g_{t}^{a}a_{t} + (1 - g_{t}^{a})c_{t}^{w}]$

其中， $c_{t}^{w} = C(M_{t-1}, k_{t}^{w}, \beta_{t}^{w}) \in S_{N}$ 是Content-based addressing 机制中的各个内存单元在t时刻的写入权重； $a_{t} \in \Delta N$ 是Dynamic memory allocation 机制中各个内存单元在t时刻的写入权重，这两种机制的组合形成整个存储器的在t时刻对各个内存单元的写入权重 $w_{t}^{w}$ 。

4.3 Temporal memory linkage

有时，用户希望网络能够将写入内存的内容按照一定的顺序读出来，于是论文设计了Temporal memory linkage机制。

这种机制拥有一个存储写入顺序的单元 $L_{t} \in [0, 1]^{N \times N}$ ，其中 $L_{t}[i, j]$ 表示在写入第j个内存单元之后写入第i个内存单元的权重(degree)， $L_{t}[i, :] \in \Delta N$ ， $L{t}[:, j] \in \Delta N$ 。

在定义 $L_{t}$ 之前，论文定义了一个优先权重(precedence weighting) $p_{t} \in \Delta N$ ， $p_{t}[i]$ 表示第i个内存单元是最后一次写入的权重(degree)，定义如下：

p0=0 p 0 = 0 $p_{0} = 0$

pt=(1−∑iwwt[i])pt−1+wwt p t = ( 1 − ∑ i w t w [ i ] ) p t − 1 + w t w $p_{t} = (1 - \sum_{i} w_{t}^{w}[i])p_{t-1} + w_{t}^{w}$

然后， $L_{t}$ 定义如下：

L0[i,j]=0;∀i,j L 0 [ i , j ] = 0 ; ∀ i , j $L_{0}[i, j] = 0; \forall i,j$

Lt=0;∀i L t = 0 ; ∀ i $L_{t} = 0; \forall i$

Lt=(1−wwt[i]−wwt[j])Lt−1[i,j]+wwt[i]pt−1[j] L t = ( 1 − w t w [ i ] − w t w [ j ] ) L t − 1 [ i , j ] + w t w [ i ] p t − 1 [ j ] $L_{t} = (1 - w_{t}^{w}[i] - w_{t}^{w}[j])L_{t-1}[i,j] + w_{t}^{w}[i]p_{t-1}[j]$

The rows and columns
of $L_{t}$ represent the weights of the temporal links going into and out from particular
memory slots, respectively.

给定 $L_{t}$ ，the backward weighting $b_{t}^{i} \in \Delta N$ and forward weighting $f_{t}^{i} \in \Delta N$ for each read head i are defined as:

bit=LTtwr,it−1 b t i = L t T w t − 1 r , i $b_{t}^{i} = L_{t}^{T}w_{t-1}^{r,i}$

fit=Ltwr,it−1 f t i = L t w t − 1 r , i $f_{t}^{i} = L_{t}w_{t-1}^{r,i}$

其中， $w_{t-1}^{r,i}$ 表示第i个read head在t-1时刻的read weighting 。

Read weighting

综上所述，论文定义第i个read head 在t时刻的 read weighting $w_{t}^{r, i} \in \Delta N$ 如下：

wr,it=πit[1]bit+πit[2]cr,it+πit[3]fit w t r , i = π t i [ 1 ] b t i + π t i [ 2 ] c t r , i + π t i [ 3 ] f t i $w_{t}^{r, i} = \pi_{t}^{i}[1]b_{t}^{i} + \pi_{t}^{i}[2]c_{t}^{r,i} + \pi_{t}^{i}[3]f_{t}^{i}$

其中， $\pi_{t}^{i} \in S_{3}$ 是read mode控制信号， $c_{t}^{r,i} \in S_{N}$ 是Content-based addressing机制中得出的权重。content-based addressing 机制与Temporal memory linkage 机制的组合共同确定了第i个read head 在t时刻的read weighting $w_{t}^{r,i}$ 。

time ------------------------------------------>

                +-------------------------------+
  mask:         |0000000001111111111111111111111|
                +-------------------------------+

                +-------------------------------+
  target:       |                              1| 'end-marker' channel.
                |         101100110110011011001 |
                |         010101001010100101010 |
                +-------------------------------+

                +-------------------------------+
  observation:  | 1011001                       |
                | 0101010                       |
                |1                              | 'start-marker' channel
                |        3                      | 'num-repeats' channel.
                +-------------------------------+