【飞桨PaddlePaddle-百度架构师手把手带你零基础实践深度学习】 -- 卷积神经网络基础

最新推荐文章于 2023-03-13 14:21:06 发布

Freedom_Bule

最新推荐文章于 2023-03-13 14:21:06 发布

阅读量1.4k

点赞数 3

分类专栏：机器学习文章标签： paddlepaddle 卷积神经网络 python 计算机视觉

本文链接：https://blog.csdn.net/qq_41488943/article/details/108123605

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

前言：本文基于飞浆PaddlePaddle-百度架构师手把手带你零基础实践深度学习课程，仅供学习交流使用

一.计算机视觉

1.1 含义

计算机视觉作为一门让机器学会如何去“看”的科学学科，具体的说，就是让机器去识别摄像机拍摄的图片或视频中的物体，检测出物体所在的位置，并对目标物体进行跟踪，从而理解并描述出图片或视频里的场景和故事，以此来模拟人脑视觉系统。因此，计算机视觉也通常被叫做机器视觉，其目的是建立能够从图像或者视频中“感知”信息的人工系统。

1.2 应用

未来，相信随着技术的不断演进，必将涌现出更多的产品应用，为我们的生活创造更大的便利和更广阔的机会。

二. 卷积神经网络

卷积神经网络的主要内容包含如下几个方面

卷积计算
填充（padding）
步幅（stride）
感受野（Receptive Field）
多输入通道、多输出通道和批量操作

2.1 卷积计算

在数学分析中以及数字图像处理中，卷积运算作为一种重要的积分变换的方式，在《信号与系统》类的通信学科中，对于卷积的定义式如下，

相同点：从数学意义上来说，信号上卷积的运算和卷积神经网络上的卷积都是多个变量滑动累加求和的过程；从物理意义上来看，都可以认为是两个信号做相关的相似度特征的运算
相宜点：信号中的卷积可以认为是一个信号对另外一个信号进行实践维度上的扫描，得到的结果就是两个信号在时间维度上的相关度；卷积神经网络里面的卷积是一个信号对另一个信号进行空间维度上的扫描，得到的结果是平面上连个信号控件维度上的相关度

卷积神经网络中是二维卷积，在每一维度上都是一个一维卷积，简单来说，就是将一个二维甚至是多维数组进行一维的展开整合

而卷积的自相关和互相关的运算机制与信号处理中的运算相同，如下所示

2.2 填充

以张图片为例，一张图片分割成像素点的大小，当卷积核大小不同时。经过多次卷积之后的尺寸会不断缩小，为了避免卷积之后图片尺寸变小，通常会在图片的外围进行填充(padding)，如同将统一尺寸的图片从4x4分割变成了16x16的分割，并且随之padding值的增大，卷积核将会变得越多

2.3 步幅

意指卷积核在图片上移动的时候每次滑动的像素点的个数。如下图所示

2.4 感受野

指的是输出特征图上的每一个点的数值。是由输入图片上大小为kh×kw的区域的元素与卷积核每个元素相乘再相加得到的，所以输入图像上kh×kw区域内每个元素数值的改变，都会影响输出点的像素值。我们将这个区域叫做输出特征图上对应点的感受野。感受野内每个元素数值的变动，都会影响输出点的数值变化。比如3x3卷积和对应的感受野就是3x3

三. 卷积算子举例

3.1 简单的黑白边界检测

目标 : 是使用Conv2D算子完成一个图像边界检测的任务。图像左边为光亮部分，右边为黑暗部分，需要检测出光亮跟黑暗的分界处。可以设置宽度方向的卷积核为[1,0,−1]，此卷积核会将宽度方向间隔为1的两个像素点的数值相减。当卷积核在图片上滑动的时候，如果它所覆盖的像素点位于亮度相同的区域，则左右间隔为1的两个像素点数值的差为0。只有当卷积核覆盖的像素点有的处于光亮区域，有的处在黑暗区域时，左右间隔为1的两个点像素值的差才不为0。将此卷积核作用到图片上，输出特征图上只有对应黑白分界线的地方像素值才不为0。具体代码如下所示，结果输出在下方的图案中。
代码如下

import matplotlib.pyplot as plt

import numpy as np
import paddle
import paddle.fluid as fluid
from paddle.fluid.dygraph.nn import Conv2D
from paddle.fluid.initializer import NumpyArrayInitializer
%matplotlib inline

with fluid.dygraph.guard():
    # 创建初始化权重参数w
    w = np.array([1, 0, -1], dtype='float32')
    # 将权重参数调整成维度为[cout, cin, kh, kw]的四维张量
    w = w.reshape([1, 1, 1, 3])
    # 创建卷积算子，设置输出通道数，卷积核大小，和初始化权重参数
    # filter_size = [1, 3]表示kh = 1, kw=3
    # 创建卷积算子的时候，通过参数属性param_attr，指定参数初始化方式
    # 这里的初始化方式时，从numpy.ndarray初始化卷积参数
    conv = Conv2D(num_channels=1, num_filters=1, filter_size=[1, 3],
            param_attr=fluid.ParamAttr(
              initializer=NumpyArrayInitializer(value=w)))
    
    # 创建输入图片，图片左边的像素点取值为1，右边的像素点取值为0
    img = np.ones([50,50], dtype='float32')
    img[:, 30:] = 0.
    # 将图片形状调整为[N, C, H, W]的形式
    x = img.reshape([1,1,50,50])
    # 将numpy.ndarray转化成paddle中的tensor
    x = fluid.dygraph.to_variable(x)
    # 使用卷积算子作用在输入图片上
    y = conv(x)
    # 将输出tensor转化为numpy.ndarray
    out = y.numpy()

f = plt.subplot(121)
f.set_title('input image', fontsize=15)
plt.imshow(img, cmap='gray')

f = plt.subplot(122)
f.set_title('output featuremap', fontsize=15)
# 卷积算子Conv2D输出数据形状为[N, C, H, W]形式
# 此处N, C=1，输出数据形状为[1, 1, H, W]，是4维数组
# 但是画图函数plt.imshow画灰度图时，只接受2维数组
# 通过numpy.squeeze函数将大小为1的维度消除
plt.imshow(out.squeeze(), cmap='gray')
plt.show()

# 查看卷积层的参数
with fluid.dygraph.guard():
    # 通过 conv.parameters()查看卷积层的参数，返回值是list，包含两个元素
    print(conv.parameters())
    # 查看卷积层的权重参数名字和数值
    print(conv.parameters()[0].name, conv.parameters()[0].numpy())
    # 参看卷积层的偏置参数名字和数值
    print(conv.parameters()[1].name, conv.parameters()[1].numpy())
[name conv2d_0.w_0, dtype: VarType.FP32 shape: [1, 1, 1, 3] 	lod: {}
	dim: 1, 1, 1, 3
	layout: NCHW
	dtype: float
	data: [1 0 -1]
, name conv2d_0.b_0, dtype: VarType.FP32 shape: [1] 	lod: {}
	dim: 1
	layout: NCHW
	dtype: float
	data: [0]
]
conv2d_0.w_0 [[[[ 1.  0. -1.]]]]
conv2d_0.b_0 [0.]

输出

3.2 图像中的物体边缘检测

对于真实的图片，使用合适的卷积核对他进行操作，如下图实例中，用来检测物体的外形轮廓。观察输出特征图和原图之间的对应关系，相关代码如下

import matplotlib.pyplot as plt
from PIL import Image
import numpy as np
import paddle
import paddle.fluid as fluid
from paddle.fluid.dygraph.nn import Conv2D
from paddle.fluid.initializer import NumpyArrayInitializer

img = Image.open('./work/images/section1/000000098520.jpg')
with fluid.dygraph.guard():
    # 设置卷积核参数
    w = np.array([[-1,-1,-1], [-1,8,-1], [-1,-1,-1]], dtype='float32')/8
    w = w.reshape([1, 1, 3, 3])
    # 由于输入通道数是3，将卷积核的形状从[1,1,3,3]调整为[1,3,3,3]
    w = np.repeat(w, 3, axis=1)
    # 创建卷积算子，输出通道数为1，卷积核大小为3x3，
    # 并使用上面的设置好的数值作为卷积核权重的初始化参数
    conv = Conv2D(num_channels=3, num_filters=1, filter_size=[3, 3], 
            param_attr=fluid.ParamAttr(
              initializer=NumpyArrayInitializer(value=w)))
    
    # 将读入的图片转化为float32类型的numpy.ndarray
    x = np.array(img).astype('float32')
    # 图片读入成ndarry时，形状是[H, W, 3]，
    # 将通道这一维度调整到最前面
    x = np.transpose(x, (2,0,1))
    # 将数据形状调整为[N, C, H, W]格式
    x = x.reshape(1, 3, img.height, img.width)
    x = fluid.dygraph.to_variable(x)
    y = conv(x)
    out = y.numpy()

plt.figure(figsize=(20, 10))
f = plt.subplot(121)
f.set_title('input image', fontsize=15)
plt.imshow(img)
f = plt.subplot(122)
f.set_title('output feature map', fontsize=15)
plt.imshow(out.squeeze(), cmap='gray')
plt.show()

输出如下

3.3 图像均值模糊

目标：通过卷积核用当前的像素跟他领域内的像素取平均，这样可以使得图像上噪声比较大的点变得平滑，操作使用如下代码所示

import matplotlib.pyplot as plt

from PIL import Image

import numpy as np
import paddle
import paddle.fluid as fluid
from paddle.fluid.dygraph.nn import Conv2D
from paddle.fluid.initializer import NumpyArrayInitializer

# 读入图片并转成numpy.ndarray
#img = Image.open('./images/section1/000000001584.jpg')
img = Image.open('./work/images/section1/000000355610.jpg').convert('L')
img = np.array(img)

# 换成灰度图

with fluid.dygraph.guard():
    # 创建初始化参数
    w = np.ones([1, 1, 5, 5], dtype = 'float32')/25
    conv = Conv2D(num_channels=1, num_filters=1, filter_size=[5, 5], 
            param_attr=fluid.ParamAttr(
              initializer=NumpyArrayInitializer(value=w)))
    
    x = img.astype('float32')
    x = x.reshape(1,1,img.shape[0], img.shape[1])
    x = fluid.dygraph.to_variable(x)
    y = conv(x)
    out = y.numpy()

plt.figure(figsize=(20, 12))
f = plt.subplot(121)
f.set_title('input image')
plt.imshow(img, cmap='gray')

f = plt.subplot(122)
f.set_title('output feature map')
out = out.squeeze()
plt.imshow(out, cmap='gray')

plt.show()

输出如下

参考

百度飞桨

Freedom_Bule

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【飞桨PaddlePaddle-百度架构师手把手带你零基础实践深度学习】 -- 卷积神经网络基础

前言：本文基于飞浆PaddlePaddle-百度架构师手把手带你零基础实践深度学习课程，仅供学习交流使用文章目录一.计算机视觉1.1 含义1.2 应用二. 卷积神经网络2.1 卷积计算2.2 填充2.3 步幅2.4 感受野三. 卷积算子举例3.1 简单的黑白边界检测3.2 图像中的物体边缘检测3.3 图像均值模糊参考一.计算机视觉1.1 含义计算机视觉作为一门让机器学会如何去“看”的科学学科，具体的说，就是让机器去识别摄像机拍摄的图片或视频中的物体，检测出物体所在的位置，并对目标物体进行跟踪，从.
复制链接

扫一扫

专栏目录