人工智能-作业5：卷积-池化-激活

最新推荐文章于 2023-12-29 18:27:49 发布

jiaotshidi

最新推荐文章于 2023-12-29 18:27:49 发布

阅读量279

点赞数

文章标签：人工智能深度学习计算机视觉

本文链接：https://blog.csdn.net/jiaotshidi/article/details/124911480

版权

文章目录

实现【卷积-池化-激活】代码，并分析总结

实现【卷积-池化-激活】代码，并分析总结

使用不同的卷积核进行卷积
在这里插入图片描述
再进行最大池化，池化采用的是2×2的窗口，间隔为2

再使用relu函数进行激活，就是把负数都变成0，正数不变
在这里插入图片描述

以上就是进行一次卷积-池化-激活的过程。如果图片有卷积核的特征的话，明显了一些。通过多次的卷积-池化-激活（三者的顺序可以不固定），最后通过全连接层学习得到输入数据的特征表达，可以诸如图像分类，视觉对象等定位任务。

1. For循环版本：手工实现卷积-池化-激活

import numpy as np
 
x = np.array([[-1, -1, -1, -1, -1, -1, -1, -1, -1],
              [-1, 1, -1, -1, -1, -1, -1, 1, -1],
              [-1, -1, 1, -1, -1, -1, 1, -1, -1],
              [-1, -1, -1, 1, -1, 1, -1, -1, -1],
              [-1, -1, -1, -1, 1, -1, -1, -1, -1],
              [-1, -1, -1, 1, -1, 1, -1, -1, -1],
              [-1, -1, 1, -1, -1, -1, 1, -1, -1],
              [-1, 1, -1, -1, -1, -1, -1, 1, -1],
              [-1, -1, -1, -1, -1, -1, -1, -1, -1]])
print("x=\n", x)
# 初始化 三个 卷积核
Kernel = [[0 for i in range(0, 3)] for j in range(0, 3)]
Kernel[0] = np.array([[1, -1, -1],
                      [-1, 1, -1],
                      [-1, -1, 1]])
Kernel[1] = np.array([[1, -1, 1],
                      [-1, 1, -1],
                      [1, -1, 1]])
Kernel[2] = np.array([[-1, -1, 1],
                      [-1, 1, -1],
                      [1, -1, -1]])
 
# --------------- 卷积  ---------------
stride = 1  # 步长
feature_map_h = 7  # 特征图的高
feature_map_w = 7  # 特征图的宽
feature_map = [0 for i in range(0, 3)]  # 初始化3个特征图
for i in range(0, 3):
    feature_map[i] = np.zeros((feature_map_h, feature_map_w))  # 初始化特征图
for h in range(feature_map_h):  # 向下滑动，得到卷积后的固定行
    for w in range(feature_map_w):  # 向右滑动，得到卷积后的固定行的列
        v_start = h * stride  # 滑动窗口的起始行（高）
        v_end = v_start + 3  # 滑动窗口的结束行（高）
        h_start = w * stride  # 滑动窗口的起始列（宽）
        h_end = h_start + 3  # 滑动窗口的结束列（宽）
        window = x[v_start:v_end, h_start:h_end]  # 从图切出一个滑动窗口
        for i in range(0, 3):
            feature_map[i][h, w] = np.divide(np.sum(np.multiply(window, Kernel[i][:, :])), 9)
print("feature_map:\n", np.around(feature_map, decimals=2))
 
# --------------- 池化  ---------------
pooling_stride = 2  # 步长
pooling_h = 4  # 特征图的高
pooling_w = 4  # 特征图的宽
feature_map_pad_0 = [[0 for i in range(0, 8)] for j in range(0, 8)]
for i in range(0, 3):  # 特征图 补 0 ，行 列 都要加 1 (因为上一层是奇数，池化窗口用的偶数)
    feature_map_pad_0[i] = np.pad(feature_map[i], ((0, 1), (0, 1)), 'constant', constant_values=(0, 0))
# print("feature_map_pad_0 0:\n", np.around(feature_map_pad_0[0], decimals=2))
 
pooling = [0 for i in range(0, 3)]
for i in range(0, 3):
    pooling[i] = np.zeros((pooling_h, pooling_w))  # 初始化特征图
for h in range(pooling_h):  # 向下滑动，得到卷积后的固定行
    for w in range(pooling_w):  # 向右滑动，得到卷积后的固定行的列
        v_start = h * pooling_stride  # 滑动窗口的起始行（高）
        v_end = v_start + 2  # 滑动窗口的结束行（高）
        h_start = w * pooling_stride  # 滑动窗口的起始列（宽）
        h_end = h_start + 2  # 滑动窗口的结束列（宽）
        for i in range(0, 3):
            pooling[i][h, w] = np.max(feature_map_pad_0[i][v_start:v_end, h_start:h_end])
print("pooling:\n", np.around(pooling[0], decimals=2))
print("pooling:\n", np.around(pooling[1], decimals=2))
print("pooling:\n", np.around(pooling[2], decimals=2))
 
 
# --------------- 激活  ---------------
def relu(x):
    return (abs(x) + x) / 2
 
 
relu_map_h = 7  # 特征图的高
relu_map_w = 7  # 特征图的宽
relu_map = [0 for i in range(0, 3)]  # 初始化3个特征图
for i in range(0, 3):
    relu_map[i] = np.zeros((relu_map_h, relu_map_w))  # 初始化特征图
 
for i in range(0, 3):
    relu_map[i] = relu(feature_map[i])
 
print("relu map :\n",np.around(relu_map[0], decimals=2))
print("relu map :\n",np.around(relu_map[1], decimals=2))
print("relu map :\n",np.around(relu_map[2], decimals=2))

实现结果就是上图，有些地方四舍五入不同。仅展示池化结果

在这里插入图片描述

2. Pytorch版本：调用函数完成卷积-池化-激活

# https://blog.csdn.net/qq_26369907/article/details/88366147
# https://zhuanlan.zhihu.com/p/405242579
import numpy as np
import torch
import torch.nn as nn
 
x = torch.tensor([[[[-1, -1, -1, -1, -1, -1, -1, -1, -1],
                    [-1, 1, -1, -1, -1, -1, -1, 1, -1],
                    [-1, -1, 1, -1, -1, -1, 1, -1, -1],
                    [-1, -1, -1, 1, -1, 1, -1, -1, -1],
                    [-1, -1, -1, -1, 1, -1, -1, -1, -1],
                    [-1, -1, -1, 1, -1, 1, -1, -1, -1],
                    [-1, -1, 1, -1, -1, -1, 1, -1, -1],
                    [-1, 1, -1, -1, -1, -1, -1, 1, -1],
                    [-1, -1, -1, -1, -1, -1, -1, -1, -1]]]], dtype=torch.float)
print(x.shape)
print(x)
 
print("--------------- 卷积  ---------------")
conv1 = nn.Conv2d(1, 1, (3, 3), 1)  # in_channel , out_channel , kennel_size , stride
conv1.weight.data = torch.Tensor([[[[1, -1, -1],
                                    [-1, 1, -1],
                                    [-1, -1, 1]]
                                   ]])
conv2 = nn.Conv2d(1, 1, (3, 3), 1)  # in_channel , out_channel , kennel_size , stride
conv2.weight.data = torch.Tensor([[[[1, -1, 1],
                                    [-1, 1, -1],
                                    [1, -1, 1]]
                                   ]])
conv3 = nn.Conv2d(1, 1, (3, 3), 1)  # in_channel , out_channel , kennel_size , stride
conv3.weight.data = torch.Tensor([[[[-1, -1, 1],
                                    [-1, 1, -1],
                                    [1, -1, -1]]
                                   ]])
 
feature_map1 = conv1(x)
feature_map2 = conv2(x)
feature_map3 = conv3(x)
 
print(feature_map1 / 9)
print(feature_map2 / 9)
print(feature_map3 / 9)
 
print("--------------- 池化  ---------------")
max_pool = nn.MaxPool2d(2, padding=0, stride=2)  # Pooling
zeroPad = nn.ZeroPad2d(padding=(0, 1, 0, 1))  # pad 0 , Left Right Up Down
 
feature_map_pad_0_1 = zeroPad(feature_map1)
feature_pool_1 = max_pool(feature_map_pad_0_1)
feature_map_pad_0_2 = zeroPad(feature_map2)
feature_pool_2 = max_pool(feature_map_pad_0_2)
feature_map_pad_0_3 = zeroPad(feature_map3)
feature_pool_3 = max_pool(feature_map_pad_0_3)
 
print(feature_pool_1.size())
print(feature_pool_1 / 9)
print(feature_pool_2 / 9)
print(feature_pool_3 / 9)
 
print("--------------- 激活  ---------------")
activation_function = nn.ReLU()
 
feature_relu1 = activation_function(feature_map1)
feature_relu2 = activation_function(feature_map2)
feature_relu3 = activation_function(feature_map3)
print(feature_relu1 / 9)
print(feature_relu2 / 9)
print(feature_relu3 / 9)

pytorch之torch.nn.Conv2d()函数详解

conv1 = nn.Conv2d(1, 1, (3, 3), 1)

这里我们用的都是输入输出通道是1，3×3卷积核，步长是1

torch.nn.MaxPool2d

max_pool = nn.MaxPool2d(2, padding=0, stride=2)

这里是2×2，步长是2。

运行结果小数位保留的多更加精确。

--------------- 卷积  ---------------
tensor([[[[ 0.7677, -0.1212,  0.1011,  0.3233,  0.5455, -0.1212,  0.3233],
          [-0.1212,  0.9900, -0.1212,  0.3233, -0.1212,  0.1011, -0.1212],
          [ 0.1011, -0.1212,  0.9900, -0.3434,  0.1011, -0.1212,  0.5455],
          [ 0.3233,  0.3233, -0.3434,  0.5455, -0.3434,  0.3233,  0.3233],
          [ 0.5455, -0.1212,  0.1011, -0.3434,  0.9900, -0.1212,  0.1011],
          [-0.1212,  0.1011, -0.1212,  0.3233, -0.1212,  0.9900, -0.1212],
          [ 0.3233, -0.1212,  0.5455,  0.3233,  0.1011, -0.1212,  0.7677]]]],
       grad_fn=<DivBackward0>)
tensor([[[[ 0.3403, -0.5486,  0.1181, -0.1041,  0.1181, -0.5486,  0.3403],
          [-0.5486,  0.5626, -0.5486,  0.3403, -0.5486,  0.5626, -0.5486],
          [ 0.1181, -0.5486,  0.5626, -0.7708,  0.5626, -0.5486,  0.1181],
          [-0.1041,  0.3403, -0.7708,  1.0070, -0.7708,  0.3403, -0.1041],
          [ 0.1181, -0.5486,  0.5626, -0.7708,  0.5626, -0.5486,  0.1181],
          [-0.5486,  0.5626, -0.5486,  0.3403, -0.5486,  0.5626, -0.5486],
          [ 0.3403, -0.5486,  0.1181, -0.1041,  0.1181, -0.5486,  0.3403]]]],
       grad_fn=<DivBackward0>)
tensor([[[[ 0.3355, -0.1090,  0.5577,  0.3355,  0.1132, -0.1090,  0.7799],
          [-0.1090,  0.1132, -0.1090,  0.3355, -0.1090,  1.0021, -0.1090],
          [ 0.5577, -0.1090,  0.1132, -0.3312,  1.0021, -0.1090,  0.1132],
          [ 0.3355,  0.3355, -0.3312,  0.5577, -0.3312,  0.3355,  0.3355],
          [ 0.1132, -0.1090,  1.0021, -0.3312,  0.1132, -0.1090,  0.5577],
          [-0.1090,  1.0021, -0.1090,  0.3355, -0.1090,  0.1132, -0.1090],
          [ 0.7799, -0.1090,  0.1132,  0.3355,  0.5577, -0.1090,  0.3355]]]],
       grad_fn=<DivBackward0>)
--------------- 池化  ---------------
torch.Size([1, 1, 4, 4])
tensor([[[[0.9900, 0.3233, 0.5455, 0.3233],
          [0.3233, 0.9900, 0.3233, 0.5455],
          [0.5455, 0.3233, 0.9900, 0.1011],
          [0.3233, 0.5455, 0.1011, 0.7677]]]], grad_fn=<DivBackward0>)
tensor([[[[0.5626, 0.3403, 0.5626, 0.3403],
          [0.3403, 1.0070, 0.5626, 0.1181],
          [0.5626, 0.5626, 0.5626, 0.1181],
          [0.3403, 0.1181, 0.1181, 0.3403]]]], grad_fn=<DivBackward0>)
tensor([[[[0.3355, 0.5577, 1.0021, 0.7799],
          [0.5577, 0.5577, 1.0021, 0.3355],
          [1.0021, 1.0021, 0.1132, 0.5577],
          [0.7799, 0.3355, 0.5577, 0.3355]]]], grad_fn=<DivBackward0>)
--------------- 激活  ---------------
tensor([[[[0.7677, 0.0000, 0.1011, 0.3233, 0.5455, 0.0000, 0.3233],
          [0.0000, 0.9900, 0.0000, 0.3233, 0.0000, 0.1011, 0.0000],
          [0.1011, 0.0000, 0.9900, 0.0000, 0.1011, 0.0000, 0.5455],
          [0.3233, 0.3233, 0.0000, 0.5455, 0.0000, 0.3233, 0.3233],
          [0.5455, 0.0000, 0.1011, 0.0000, 0.9900, 0.0000, 0.1011],
          [0.0000, 0.1011, 0.0000, 0.3233, 0.0000, 0.9900, 0.0000],
          [0.3233, 0.0000, 0.5455, 0.3233, 0.1011, 0.0000, 0.7677]]]],
       grad_fn=<DivBackward0>)
tensor([[[[0.3403, 0.0000, 0.1181, 0.0000, 0.1181, 0.0000, 0.3403],
          [0.0000, 0.5626, 0.0000, 0.3403, 0.0000, 0.5626, 0.0000],
          [0.1181, 0.0000, 0.5626, 0.0000, 0.5626, 0.0000, 0.1181],
          [0.0000, 0.3403, 0.0000, 1.0070, 0.0000, 0.3403, 0.0000],
          [0.1181, 0.0000, 0.5626, 0.0000, 0.5626, 0.0000, 0.1181],
          [0.0000, 0.5626, 0.0000, 0.3403, 0.0000, 0.5626, 0.0000],
          [0.3403, 0.0000, 0.1181, 0.0000, 0.1181, 0.0000, 0.3403]]]],
       grad_fn=<DivBackward0>)
tensor([[[[0.3355, 0.0000, 0.5577, 0.3355, 0.1132, 0.0000, 0.7799],
          [0.0000, 0.1132, 0.0000, 0.3355, 0.0000, 1.0021, 0.0000],
          [0.5577, 0.0000, 0.1132, 0.0000, 1.0021, 0.0000, 0.1132],
          [0.3355, 0.3355, 0.0000, 0.5577, 0.0000, 0.3355, 0.3355],
          [0.1132, 0.0000, 1.0021, 0.0000, 0.1132, 0.0000, 0.5577],
          [0.0000, 1.0021, 0.0000, 0.3355, 0.0000, 0.1132, 0.0000],
          [0.7799, 0.0000, 0.1132, 0.3355, 0.5577, 0.0000, 0.3355]]]],

3. 可视化：了解数字与图像之间的关系

# https://blog.csdn.net/qq_26369907/article/details/88366147
# https://zhuanlan.zhihu.com/p/405242579
import torch
import torch.nn as nn
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号 #有中文出现的情况，需要u'内容
x = torch.tensor([[[[-1, -1, -1, -1, -1, -1, -1, -1, -1],
                    [-1, 1, -1, -1, -1, -1, -1, 1, -1],
                    [-1, -1, 1, -1, -1, -1, 1, -1, -1],
                    [-1, -1, -1, 1, -1, 1, -1, -1, -1],
                    [-1, -1, -1, -1, 1, -1, -1, -1, -1],
                    [-1, -1, -1, 1, -1, 1, -1, -1, -1],
                    [-1, -1, 1, -1, -1, -1, 1, -1, -1],
                    [-1, 1, -1, -1, -1, -1, -1, 1, -1],
                    [-1, -1, -1, -1, -1, -1, -1, -1, -1]]]], dtype=torch.float)
print(x.shape)
print(x)
img = x.data.squeeze().numpy()  # 将输出转换为图片的格式
plt.imshow(img, cmap='gray')
plt.title('原图')
plt.show()
 
print("--------------- 卷积  ---------------")
conv1 = nn.Conv2d(1, 1, (3, 3), 1)  # in_channel , out_channel , kennel_size , stride
conv1.weight.data = torch.Tensor([[[[1, -1, -1],
                                    [-1, 1, -1],
                                    [-1, -1, 1]]
                                   ]])
img = conv1.weight.data.squeeze().numpy()  # 将输出转换为图片的格式
plt.imshow(img, cmap='gray')
plt.title('Kernel 1')
plt.show()
conv2 = nn.Conv2d(1, 1, (3, 3), 1)  # in_channel , out_channel , kennel_size , stride
conv2.weight.data = torch.Tensor([[[[1, -1, 1],
                                    [-1, 1, -1],
                                    [1, -1, 1]]
                                   ]])
img = conv2.weight.data.squeeze().numpy()  # 将输出转换为图片的格式
plt.imshow(img, cmap='gray')
plt.title('Kernel 2')
plt.show()
conv3 = nn.Conv2d(1, 1, (3, 3), 1)  # in_channel , out_channel , kennel_size , stride
conv3.weight.data = torch.Tensor([[[[-1, -1, 1],
                                    [-1, 1, -1],
                                    [1, -1, -1]]
                                   ]])
img = conv3.weight.data.squeeze().numpy()  # 将输出转换为图片的格式
plt.imshow(img, cmap='gray')
plt.title('Kernel 3')
plt.show()
 
feature_map1 = conv1(x)
feature_map2 = conv2(x)
feature_map3 = conv3(x)
 
print(feature_map1 / 9)
print(feature_map2 / 9)
print(feature_map3 / 9)
 
img = feature_map1.data.squeeze().numpy()  # 将输出转换为图片的格式
plt.imshow(img, cmap='gray')
plt.title('卷积后的特征图1')
plt.show()
 
print("--------------- 池化  ---------------")
max_pool = nn.MaxPool2d(2, padding=0, stride=2)  # Pooling
zeroPad = nn.ZeroPad2d(padding=(0, 1, 0, 1))  # pad 0 , Left Right Up Down
 
feature_map_pad_0_1 = zeroPad(feature_map1)
feature_pool_1 = max_pool(feature_map_pad_0_1)
feature_map_pad_0_2 = zeroPad(feature_map2)
feature_pool_2 = max_pool(feature_map_pad_0_2)
feature_map_pad_0_3 = zeroPad(feature_map3)
feature_pool_3 = max_pool(feature_map_pad_0_3)
 
print(feature_pool_1.size())
print(feature_pool_1 / 9)
print(feature_pool_2 / 9)
print(feature_pool_3 / 9)
img = feature_pool_1.data.squeeze().numpy()  # 将输出转换为图片的格式
plt.imshow(img, cmap='gray')
plt.title('卷积池化后的特征图1')
plt.show()
 
print("--------------- 激活  ---------------")
activation_function = nn.ReLU()
 
feature_relu1 = activation_function(feature_map1)
feature_relu2 = activation_function(feature_map2)
feature_relu3 = activation_function(feature_map3)
print(feature_relu1 / 9)
print(feature_relu2 / 9)
print(feature_relu3 / 9)
img = feature_relu1.data.squeeze().numpy()  # 将输出转换为图片的格式
plt.imshow(img, cmap='gray')
plt.title('卷积 + relu 后的特征图1')
plt.show()

运行效果如下：

原图

在这里插入图片描述

卷积核

特征图

可以尝试改变一下池化的参数
2×2，步长1
在这里插入图片描述
3×3 步长是1

发现都不如原来的好，池化的步长还是要合适的。大小最好还是小于卷积核的大小

参考资料

【2021-2022 春学期】人工智能-作业5：卷积-池化-激活
 pytorch之torch.nn.Conv2d()函数详解
 torch.nn.MaxPool2d

jiaotshidi

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
人工智能-作业5：卷积-池化-激活

文章目录实现【卷积-池化-激活】代码，并分析总结1. For循环版本：手工实现卷积-池化-激活2. Pytorch版本：调用函数完成卷积-池化-激活3. 可视化：了解数字与图像之间的关系运行效果如下：原图卷积核特征图参考资料实现【卷积-池化-激活】代码，并分析总结使用不同的卷积核进行卷积再进行最大池化，池化采用的是2×2的窗口，间隔为2再使用relu函数进行激活，就是把负数都变成0，正数不变以上就是进行一次卷积-池化-激活的过程。如果图片有卷积核的特征的话，明显了一些。通过多次的卷积-池
复制链接

扫一扫