论文详解 + TCN 篇知识点补充: Dilated Convolution_空洞卷积

此篇延伸补充的源头文章链接:


相关主题推荐文章:


相关论文集:


缘由与长相

Dilated Convolution 和 Receptive Field 是一个密切相关的话题,Dilated Convolution 发展的源头可说是从 Semantic Segmentation 这个主题发展出来的技术,为的就是因应一个更为精确的物体识别问题:pixel-wise object detection。人们希望能够把小到像素级别的数据同样正确归类到所属的 classification 之中,这个挑战直接冲击到了旧有的方法。

原先的 CNN architecture 是用一个“实心”的 kernal 去扫描 input data,然后使用 pooling 方法直接暴力的删掉其余 75% 的信息量,只留下 25% 的原汁原味,这样的做法在还没有精确到 pixel-wise 的情况时还是可以行的通的,一旦要归类到小至 pixel 等级的尺度时,pooling 对原 data 的破坏力足以让事情搞砸,试想一个原始数据被经过 Convolution 剥离出了其区域特征后,接着下一个环节被大刀阔斧般的砍去内部信息,并且永久无法复原,这是在微小的 pixel 世界中无法接受的做法。

如果说 pooling 这种简单删减 data 让单位 output 中 Receptive Field 增大的方法不可行,就需要一个新的在不删减原始数据的情况下,直接让 Receptive Field 提升的办法:Dilated Convolution。简单的说,就是把原本“实心”的 kernal 元素之间按照一定规律插入 0 元素作为空格,如下图:


(a)就是原始的方法,是一个实心的 kernal ,中间没有半点缝隙,增大 Receptive Field 的办法就只有用更大的 kernal ,或是换个角度想,用了 pooling 之后 Receptive Field 也是跟着变大的。(b)和(c)则是插入了 0 元素之后 Dilated 的 kernal ,它是一个变向放大 kernal 的办法,放大后的直接好处就是可以让 Receptive Field 直接跟着一起扩大,扩大后的好处是让每个新的 output 能够有更好的局部视野,搜集到的特征也更有全局性一些。

将多尺度卷积(MSC)、时序卷积网络(TCN)和多头注意力机制(Multi-Head Attention)结合用于时间序列预测可以带来一些优势: 1. 捕捉多尺度特征:多尺度卷积可以在不同尺度上感知时间序列数据的特征,而TCN可以处理长期依赖性。多头注意力机制可以在不同的注意力头上关注不同的特征子空间。通过结合这三个方法,可以充分利用它们各自的优势,更全面地捕捉时间序列数据中的多尺度特征。 2. 强化时间依赖建模:TCN和多头注意力机制在建模时间序列数据的时间依赖关系方面具有优势。TCN通过使用卷积操作来捕捉长期依赖性,避免了传统循环神经网络中的梯度消失或梯度爆炸问题。多头注意力机制可以通过自注意力机制在序列中建模长距离的依赖关系。将它们与多尺度卷积结合,可以更好地处理时间序列数据中的时间依赖性,并提高模型的预测性能。 3. 增强特征表达能力:多头注意力机制能够对输入序列的不同位置进行自适应加权,从而更好地聚焦于重要的时间步。通过多头注意力机制,模型可以同时关注多个特征子空间,提高特征表达的丰富性。结合多尺度卷积和TCN,可以从多个角度和尺度提取特征,并通过多头注意力机制加权融合这些特征,进一步提升特征表达能力。 4. 提高模型的泛化能力:通过结合多个不同的模型组件,如MSC、TCN和多头注意力机制,可以使模型具有更大的灵活性和泛化能力。这种组合能够同时考虑时间序列数据的多个方面,并充分利用它们之间的相互作用。这有助于模型更好地适应不同类型、长度和复杂性的时间序列数据,提高预测性能。 综上所述,将多尺度卷积、TCN和多头注意力机制结合应用于时间序列预测任务,可以充分利用它们各自的优势,增强时间序列数据的特征表达能力、时间依赖建模能力和泛化能力,从而提高预测性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值