理解卷积操作：MATLAB中的Conv2d函数实现

hughieu

已于 2024-09-27 01:05:13 修改

阅读量318

点赞数 4

文章标签： matlab 深度学习卷积神经网络

于 2024-09-27 00:59:50 首次发布

本文链接：https://blog.csdn.net/qq_45041298/article/details/142581108

版权

在深度学习和计算机视觉领域，卷积操作是一个核心概念，广泛应用于图像处理、特征提取和神经网络中。本文将深入探讨一个简单的卷积函数 Conv2d 的实现，该函数使用 MATLAB 进行卷积计算，涵盖输入参数、卷积计算的步骤以及如何处理边界情况。

输入参数解析

函数 Conv2d 接受以下输入参数：

input (1, H, W, L)：输入数据的维度，其中 H 为高度，W 为宽度，L 为通道数。这里的输入通常是图像数据，可以是彩色图像（RGB）或单通道图像（灰度）。
weights (numFilters, kernelH, kernelW, inputChannels)：卷积核权重，numFilters 表示输出通道的数量（即卷积核的数量），kernelH 和 kernelW 分别是卷积核的高度和宽度，inputChannels 是输入通道的数量。
stride：卷积的步长，必须为正数。步长决定了卷积核在输入数据上滑动的速度。
padding：输入数据的填充大小，必须为非负数。填充有助于控制输出特征图的大小，并确保卷积操作不会因边界效应而损失信息。
bias (numFilters)：偏置项，若未提供则默认使用零偏置。偏置在神经网络中用于调整输出的激活值。

卷积函数的实现

函数结构

在 Conv2d 函数中，首先获取输入数据的维度和卷积核的数量，并进行参数验证以确保步长和填充大小符合要求。接下来，对输入数据进行填充，并根据卷积核的尺寸计算输出特征图的尺寸。

输入数据填充

通过在输入数据的边缘添加零，确保卷积核能够在所有位置有效滑动，避免信息丢失。代码段如下：

zero_temp = zeros(1, in_H, in_W + 2 * padding, in_L + 2 * padding); 
zero_temp(1, :, (padding + 1):(end - padding), (padding + 1):(end - padding)) = input; 
input = zero_temp;

卷积运算

卷积运算的核心在于通过卷积核与输入数据进行逐元素相乘并求和，生成输出特征图。以下是卷积计算的实现：

for out_channel = 1:numFilters 
    ThreeDimFilters = weights(out_channel, :, :, :); 
    for width = 1:out_W 
        for len = 1:out_L 
            temp_w = (width - 1) * stride + 1; 
            temp_l = (len - 1) * stride + 1; 
            temp_data = input(1, :, temp_w:temp_w + kernel_size - 1, temp_l:temp_l + kernel_size - 1);
            output(:, out_channel, width, len) = sum(sum(sum(temp_data .* ThreeDimFilters)));
        end
    end

在此过程中，我们通过两层嵌套循环遍历每个输出通道，并计算每个位置的卷积值。最终的卷积结果会存储在输出矩阵中。

偏置项的添加

在卷积计算完成后，若有偏置项，则将其添加到输出特征图中。处理逻辑如下：

if nargin < 5 || isempty(bias)  
    % 默认情况下，偏置为零，不做任何操作
else
    output(1, out_channel, :, :) = output(1, out_channel, :, :) + bias(out_channel); 
end

总结

卷积操作在深度学习和图像处理中的重要性不可小觑。通过上述 Conv2d 函数的实现，我们能够理解卷积如何在图像中提取特征，以及如何通过参数设置（如步长、填充和偏置）调整输出的特性。掌握卷积操作对于设计有效的神经网络至关重要。最后在文章最后给出完整代码。

%% 输入参数：
% input (1, H, W, L) - 输入数据，H 为高度，W 为宽度，L 为通道数。
% weights (numFilters, kernelH, kernelW, inputChannels) - 卷积核权重，numFilters 为输出通道数。
% stride - 卷积步长，必须为正数。
% padding - 输入数据的填充大小，必须为非负数。
% bias (numFilters) - 偏置项，若未提供则默认使用零偏置。

%% 卷积函数实现：
function output = Conv2d(input, weights, stride, padding, bias)
    % 获取卷积核的数量，即输出通道数
    numFilters = size(weights, 1);  
    in_H = size(input, 2);  % 输入数据的高度
    in_W = size(input, 3);  % 输入数据的宽度
    in_L = size(input, 4);  % 输入数据的深度（通道数）

    % 参数验证
    if stride <= 0
        error('Stride must be positive.');
    end
    if padding < 0
        error('Padding must be non-negative.');
    end
    
    %% 输入数据填充
    % 创建填充后的全零矩阵，大小为 [1, in_H, in_W + 2*padding, in_L + 2*padding]
    zero_temp = zeros(1, in_H, in_W + 2 * padding, in_L + 2 * padding); 
    
    % 将输入数据放置在填充后的矩阵的中心位置
    zero_temp(1, :, (padding + 1):(end - padding), (padding + 1):(end - padding)) = input; 
    input = zero_temp; % 更新输入为填充后的矩阵

    %% 卷积运算
    kernel_size = size(weights, 3); % 卷积核的大小
    out_W = floor((in_W - kernel_size + 2 * padding) / stride + 1); % 计算输出宽度
    out_L = floor((in_L - kernel_size + 2 * padding) / stride + 1); % 计算输出深度
    output = zeros(1, numFilters, out_W, out_L); % 初始化输出矩阵

    % 遍历每个输出通道
    for out_channel = 1:numFilters 
        ThreeDimFilters = weights(out_channel, :, :, :); % 获取当前输出通道的三维卷积核参数
        
        % 遍历输出的宽度和深度
        for width = 1:out_W 
            for len = 1:out_L 
                % 计算当前输出在输入中的起始位置（行和列）
                temp_w = (width - 1) * stride + 1; 
                temp_l = (len - 1) * stride + 1; 
                
                % 从填充后的输入中提取与卷积核大小相同的区域
                temp_data = input(1, :, temp_w:temp_w + kernel_size - 1, temp_l:temp_l + kernel_size - 1);
                
                % 计算当前区域与卷积核的逐元素乘积，并求和
                output(:, out_channel, width, len) = sum(sum(sum(temp_data .* ThreeDimFilters)));
            end
        end
        
        % 添加偏置项
        if nargin < 5 || isempty(bias)  % 检查偏置是否为空
            % 默认情况下，偏置为零，不做任何操作
        else
            output(1, out_channel, :, :) = output(1, out_channel, :, :) + bias(out_channel); 
        end
    end
end