【论文阅读】An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling

1.摘要

一般而言,序列模型与循环网络(recurrent networks)关系紧密(由于RNN的循环自回归结构能较好地表达出时间序列)。而传统的卷积网络(convolutional networks)由于卷积核大小的限制,对于长时间的依赖信息不能较好地抓取。

但是,研究发现,一些特殊的卷积神经网络模型在音频合成、机器翻译等任务上效果比递归神经网络更好。那么,对于一个新的任务,怎么选取网络结构呢?

本文使用大量数据集对模型进行评估,发现简单的卷积结构在数据集的表现优于典型的循环网络(如LSTMs),并且表现出更长的有效记忆(effective memory)。

本文得到结论:循环网络和序列模型之间的关联应该被重新考虑;卷积网络是序列模型任务的自然出发点(natural starting point)。

2.知识补充

2.1时间序列

对于\{x_0,x_1,...,x_T\}输入的序列,希望预测每一时刻对应的输出\{y_0,y_1,...,y_T\};从而产生映射f:x^{T+1}->y^{T+1},其中\hat{y}是对应值,需要满足因果约束

\hat{y}仅由\{x_{0},x_{1},...,x_{t}\}决定,而不由\{x_{t+1},...,x_{T}\}决定。

学习目标:找到网络f,使得实际输出与预测之间的损失函数\{L(y_0,y_1,...,y_T,f(x_0,...,x_T))\}最小

2.2神经网络概述

基本神经网络包含:输入层、隐含层、输出层。各层之间使用权值连接,激活函数控制输出,神经网络通过学习得到各层之间的权值。

2.3 经典循环网络(RNN,LSTM,GRU)

2.3.1 RNN循环神经网络(Recurrent Neural Network)

区别于原始全连接神经网络图(如下)中,每一层之间都是相互独立的;同一层内的每个节点又是相互独立的。即每次输入与前面的输入是无关的,不能较好地处理序列信息。

在这里插入图片描述

RNN是用于处理序列数据的神经网络。基本结构图如下

在这里插入图片描述 这里写图片描述

而循环神经网络,如果忽略隐藏层中的w,则与全连接神经网络结构是一致的,RNN只是在此基础上加入了一个循环的结构。循环层W按时间线展开后,得到如下输入与权重:

U是输入层到隐藏层的权重矩阵,V是隐藏层到输出层的权重矩阵,W是上一时刻的隐藏层的值传入到下一时刻的隐藏层时的权重矩阵。
Xt是t时刻的输入,是一个(x0,x1,x2…xn)的向量;St是t时刻的隐藏层的值;Ot是t时刻RNN网络的输出。网络在t时刻接受了输入Xt之后,隐藏层的值是St,输出的值是Ot。

但是St并不单单只是由Xt决定,还与t-1时刻的隐藏层的值St-1有关。所以在RNN网络中特有的循环操作是:

每个时刻t计算对应隐藏层的值,并且将该隐藏层的值传到下一时刻,实现了信息传递

注意:在同一层隐藏层中,存在参数共享:即不同时刻的W,V,U对应的值都分别相等。
可能原因:X{t-1},X{t},X{t+1}表示不同时刻的输入,但是组合在一起形成一个矩阵同时输入网络的,然后这个矩阵再通过权重矩阵U的变化。

RNN的激活函数通常是非线性的,例如,tanh or ReLU 函数。利弊分析:

tanh函数的导数始终小于1,把众多小于1的数连乘,会出现梯度消失的情况,但tanh比sigmoid函数梯度较大,收敛速度更快且引起梯度消失更慢。
ReLU函数能解决梯度消失,但是会引入梯度爆炸;但设定合适的阈值可以解决这个问题。

在这里插入图片描述

在这里插入图片描述

RNN的缺陷:当相关信息与需要信息的位置之间的距离非常大时,RNN变得无法连接相关信息。 

<think>好的,用户想找TCN(时间卷积网络)的原始论文。首先,我需要确认TCN的原始论文是哪一篇。根据用户提供的引用内容,引用[2]提到TCN是由作者在某个时间提出的,用于序列建模,并比较了CNNRNN、LSTM等的效果。但引用中没有直接给出论文标题或作者。 接下来,我需要回想一下TCN的相关信息。TCN通常与《An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling》这篇论文相关联,作者是Shaojie Bai、J. Zico Kolter和Vladlen Koltun,发表于2018年。这可能就是用户要找的原始论文。此外,用户提到的引用[3]提到论文获得了ACL 2018的最佳短文奖,但ACL通常处理自然语言处理,而TCN的论文可能发表于其他会议,比如ICML或arXiv预印本,需要确认。 可能用户混淆了不同的会议,或者引用[3]指的是另一篇相关论文。因此,需要指出可能的原始论文,并建议用户核对作者和会议信息。同时,提供arXiv链接方便用户访问,因为很多论文会先发布在那里。此外,生成相关问题帮助用户进一步了解TCN的结构和应用,如比较TCN与RNN、TCN的核心组件等。</think>TCN(Temporal Convolutional Network)的原始论文通常被认为是2018年由Shaojie Bai等人发表的《An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling》。这篇论文系统地提出了TCN的网络架构,并通过实验验证了其在序列建模任务中优于传统RNN、LSTM等模型的性能[^2]。 论文核心内容包括: 1. **因果卷积**(Causal Convolution)保证时序依赖关系不泄漏 2. **膨胀卷积**(Dilated Convolution)扩大感受野 $$ y_t = \sum_{k=0}^{K-1} w_k \cdot x_{t-d \cdot k} $$ 其中$d$为膨胀系数,$K$为卷积核大小 3. **残差连接**(Residual Connection)解决深层网络梯度消失问题[^2] 该论文最初发布于arXiv预印本平台: https://arxiv.org/abs/1803.01271
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值