因果卷积（causal）与扩展卷积（dilated）

最新推荐文章于 2025-04-08 14:09:01 发布

tonygsw

最新推荐文章于 2025-04-08 14:09:01 发布

阅读量2.6w

点赞数 17

分类专栏：机器学习

本文链接：https://blog.csdn.net/tonygsw/article/details/81280364

版权

机器学习专栏收录该内容

2 篇文章

订阅专栏

本文探讨了因果卷积和扩展卷积的概念及其在序列建模中的应用。因果卷积适用于处理时间序列数据，确保预测仅依赖过去的信息。扩展卷积通过跳跃连接扩大感受野，有效解决了普通卷积层深度增加带来的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

因果卷积（causal）与扩展卷积（dilated）之An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling

本文首发于https://www.cnblogs.com/fantastic123/p/9389128.html，这个博客也是我的，所以不是搬运他人的

author：gswycf

　　最近在看关于NLP（自然语言处理）方面的文章，（其实不是自己要看），anyway，看了一个“An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling“，讲到了：虽然人们现在都在用RNN和LSTm去处理序列问题（sequence modeling），但是明显最近几年这些模型在这些问题上出现了瓶颈，你们之前都说CNN不适合处理sequence modeling问题，但其实并不是的，作者提出了一个普适的CNNN模型，在多个序列问题上和之前的RNN和LSTM比较，结果发现，CNN在这方面的能力确实是被低估了，CNN建立的model要比之前人们之前用的RNN要好很多，而且简洁。

　　这篇blog并不是要讲那篇文章，我可能会单独写一篇（看有没有时间），这篇blog主要是结束那篇文章中提出的两个概念：因果卷积（causal）与扩展卷积（dilated）

　　因果卷积：

　　因为要处理序列问题（即要考虑时间问题，）就不能使用普通的CNN卷积，必须使用新的CNN模型，这个就是因果卷积的作用，看下面一个公式，对与序列问题（sequence modeling），主要抽象为，根据x1......xt和y1.....yt-1去预测yt，使得yt接近于实际值

　　我们根据图片来看下因果卷积的样子，下面这个图片来自：https://deepmind.com/blog/wavenet-generative-model-raw-audio/

　　上面的图片可以详细的解释因果卷积，但是问题就来，如果我要考虑很久之前的变量x，那么卷积层数就必须增加（自行体会）。。。卷积层数的增加就带来：梯度消失，训练复杂，拟合效果不好的问题，为了决绝这个问题，出现了扩展卷积（dilated）

　　扩展卷积：

　　对于因果卷积，存在的一个问题是需要很多层或者很大的filter来增加卷积的感受野。本文中，我们通过大小排列来的扩大卷积来增加感受野。扩大卷积（dilated convolution）是通过跳过部分输入来使filter可以应用于大于filter本身长度的区域。等同于通过增加零来从原始filter中生成更大的filter。