[翻译]卷积计算细节：矩阵乘法实现卷积

最新推荐文章于 2025-03-04 22:04:01 发布

亚里仕多德

最新推荐文章于 2025-03-04 22:04:01 发布

阅读量1.8k

点赞数 2

分类专栏：人工ZZ看世界文章标签：计算机视觉卷积

原文链接：https://medium.com/@_init_/an-illustrated-explanation-of-performing-2d-convolutions-using-matrix-multiplications-1e8de8cd2544#id_token=eyJhbGciOiJSUzI1NiIsImtpZCI6IjEzZThkNDVhNDNjYjIyNDIxNTRjN2Y0ZGFmYWMyOTMzZmVhMjAzNzQiLCJ0eXAiOiJKV1QifQ.eyJpc3MiOiJodHRwc

版权

人工ZZ看世界专栏收录该内容

4 篇文章

订阅专栏

本文详细介绍了如何通过矩阵乘法实现2D卷积，首先以一个4x4图像和2x2卷积核为例，展示了不使用padding和stride为1的情况，然后扩展到多通道输入和输出的案例。理解这一实现方式有助于更好地掌握卷积神经网络的内部工作原理，并在面试中展现深度理解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

阅读时长大约8分钟，原文链接：https://medium.com

0. 介绍

在本文中，我将解释如何将2D卷积实现为矩阵乘法。该说明来自于CS231n(用于视觉识别的卷积神经网络)的笔记。大家应该已经熟悉深度神经网络中卷积运算的概念。如果没有，这个代码仓库有十分形象的动画来演示说明什么是卷积。可以在此处下载用于重现本文计算内容的代码。

1. 正文

1.1 来看一个小例子

介绍现在有一个4x4的图像X，其像素值如图所示：

同时我们来定义一个二维卷积的参数

kernel size: 2x2
padding: 0 
stride: 1
bias: 0
output channels: 1 
initial weights W: [[1,2],[3,4]]

这样就总共有了9个2X2的patch

想想这是为什么？下面的图解很好解释了这个问题

而每一个patch可以展开成4维的列向量得到矩阵P，颜色与上图都是一一对应的呢！

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GREFM7OE-1617026200953)(https://miro.medium.com/max/584/1*RLH7W_baMCmNEdXR6cvahQ.png)]

同理，将卷积核铺平成列向量K长得就是这个样子

大功告成 !

做一做简单矩阵乘法得到结果

然后做一个简单的reshape得到最终结果

当然要注意到的是这里我们没有使用padding,就是使用了也无非是在image加零进行同样的操作。

1.2 再来一个大例子

1+1=2 总是简单的，如果输入，输出都是多个通道又是怎么回事呢？

想想呀！

这里我们假设输入为三通道，输出为二通道，其余不变，先来看看输入矩阵

再来看看卷积核，这里我认为你已经十分明确了解卷积核的概念。重复一次，对于3输入2输出的要求，应该有3*2=6个卷积核。

这里的铺平只是多了几步而已。

输入：将同一位置的patch按通道顺序铺平形成矩阵
卷积核：将每一组卷积核铺平成列向量
做矩阵乘法
reshape 还原为矩阵形式

上图解！

输入和卷积核的展开

结果

2. 有啥用？

为什么我们要深入理解这个细节呢？从学术角度来讲，He et. al. (2015)利用矩阵乘法和矩阵的特性获得了更好的初始化方法，从挣钱的角度，译者本人在面试的时候被问道了这个问题，如果能答出来，想必也是让人耳目一新吧！

3. 总结

本文利用两个例子说明了矩阵乘法如何实现2D卷积，如果有什么不懂还请在下方留言告知我。

但是呢！

如果是1D卷积呢？想想！原文中也做了解释呢！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。