MobileNet学习记录-基于MobileNetV1的自动驾驶图像语义分割实现

最新推荐文章于 2024-01-17 17:43:28 发布

Van-bo

最新推荐文章于 2024-01-17 17:43:28 发布

阅读量2k

点赞数 5

分类专栏：深度学习文章标签：卷积网络深度学习神经网络机器学习

本文链接：https://blog.csdn.net/qq_41573860/article/details/107539321

版权

深度学习专栏收录该内容

25 篇文章 28 订阅

订阅专栏

1. MobileNet基础及架构

Mobielnet学习记录-概念篇

2. 实现思路

为了便于实现，还是采用了Encoder-Decoder结构，利用MobileNet来进行特征提取，相较于CNN的卷积操作，最大的不同就是MobileNet的深度可分离卷积，其他步骤基本一样。

MobileNet的网络结构如上图所示，首先通过一个3x3的标准卷积（步长为2），然后经过多个深度可分离卷积，特征提取完成后，然后采用平均池化将feature变成1x1，根据预测类别大小加上全连接层，最后经过softmax层求取类别概率。

对于Encoder部分，因为有多个Depth卷积和Point卷积，因此可以写一个函数将这两步整合起来,然后根据MobileNet架构图来进行对应的操作。

其中alpha参数：在MobileNet v1版本中的可分离卷积被分为两部分，分别为深度卷积（depth_wise）和点卷积（ and point_wise），这两个卷积对应的参数分别是depth_multiplier和alpha，这两个参数是为了在节省计算与保持accuracy之间寻找一个平衡点，为此使用alpha参数来调节每层的宽度，它可用来影响input channels M及output channels N的数目。若施加了alpha参数，那么在真正计算时所用的M与N将分别为alpha * M与alpha x*N。它又叫缩减参数/宽度参数，宽度乘数alpha的作用是在每层均匀地稀疏网络。

对于给定的图层在宽度乘数α和输入通道数M变为αM，输出通道数N变为αN时。具有宽度乘数α的深度可分卷积的计算成本为公式：

其中α的取值范围为（0,1），一般的设置为0.25,0.5,0.75,1，当α<1的时候就减少了MobileNets的宽度。宽度乘数具有通过大致α的平方地去减少计算成本和参数数量的效果，宽度乘数可以应用于任何模型结构，以定义具有合理精度，延迟和大小权衡的新的较小模型，它用于定义需要从头开始训练的新的简化结构。

3.实现过程

①Depthwise_Conv函数

def Depth_Conv(inputs, pointwise_conv_filters, alpha,
			   multiplier, strides=(1, 1), layer=1):

	channel_axis = 1 \
		if IMAGE_ORDERING == 'channels_first' \
		else -1
	pointwise_conv_filters = int(pointwise_conv_filters * alpha)

	Img_Conv = ZeroPadding2D((1, 1) , data_format=IMAGE_ORDERING , name='conv_pad_%d' % layer)(inputs)
	Img_Conv = DepthwiseConv2D((3, 3) , data_format=IMAGE_ORDERING ,
														 padding='valid',
														 depth_multiplier=multiplier,
														 strides=strides,
														 use_bias=False,
														 name='conv_dw_%d' % layer)(Img_Conv)
	Img_Conv = BatchNormalization(
			axis=channel_axis, name='conv_dw_%d_bn' % layer)(Img_Conv)
	Img_Conv = Activation(relu6, name='conv_dw_%d_relu' % layer)(Img_Conv)

	Img_Conv = Conv2D(pointwise_conv_filters, (1, 1), data_format=IMAGE_ORDERING ,
										padding='same',
										use_bias=False,
										strides=(1, 1),
										name='conv_pw_%d' % layer)(Img_Conv)
	Result = BatchNormalization(axis=channel_axis,name='conv_pw_%d_bn' % layer)(Img_Conv)
	return Activation(relu6, name='conv_pw_%d_relu' % layer)(Result)

该函数主要用于处理深度可分离卷积块，接收inputs, pointwise_conv_filters（点卷积了滤波器）, alpha, depth_multiplier（depth_multiplier参数）, strides, layer六个参数，首先还是经过一个ZeroPadding2D使图像大小保持不变，再经过一个3*3的DepthwiseConv2D，然后经过批标准化处理，再用relu6函数激活，再通过一个1*1卷积的Conv2D，padding方式为same，之后再经过批标准化处理，最后返回经relu6激活后的结果。

②Conv函数

def Conv(inputs, filters, alpha, kernel=(3, 3), strides=(1, 1)):

	channel_axis = 1 \
		if IMAGE_ORDERING == 'channels_first' \
		else -1
	filters = int(filters * alpha)
	Img_Conv = ZeroPadding2D(padding=(1, 1), name='layer1_pad', data_format=IMAGE_ORDERING  )(inputs)
	Img_Conv = Conv2D(filters, kernel , data_format=IMAGE_ORDERING  ,
										padding='valid',
										use_bias=False,
										strides=strides,
										name='layer1')(Img_Conv)
	Result = BatchNormalization(axis=channel_axis, name='layer1_bn')(Img_Conv)
	return Activation(relu6, name='layer1')(Result)

Conv函数接收到传来的参数后，将filter与宽度乘数α相乘并取整作为新的filter，然后对其进行ZeroPadding2D，padding=(1, 1),再经过Conv2D函数进行卷积，这里用的是新卷积核，再通过一次批标准化处理，最后用激活函数relu6（最大值为6）并返回处理后的结果，该函数主要用来进行结构中的第一次卷积操作。

③特征提取过程

def MobileNet_Encoder( input_height=224 ,  input_width=224 ):

	alpha=0.5
	multiplier=1

	img_input = Input(shape=(input_height, input_width, 3 ))

	Img_In = Conv(img_input, 32, alpha, strides=(2, 2))
	Img_In = Depth_Conv(Img_In, 64, alpha, multiplier, layer=1) 
	layer1 = Img_In

	Img_In = Depth_Conv(Img_In, 128, alpha, multiplier,
														strides=(2, 2), layer=2)  
	Img_In = Depth_Conv(Img_In, 128, alpha, multiplier, layer=3) 
	layer2 = Img_In

	Img_In = Depth_Conv(Img_In, 256, alpha, multiplier,
														strides=(2, 2), layer=4)  
	Img_In = Depth_Conv(Img_In, 256, alpha, multiplier, layer=5) 
	layer3 = Img_In

	Img_In = Depth_Conv(Img_In, 512, alpha, multiplier,
														strides=(2, 2), layer=6) 
	Img_In = Depth_Conv(Img_In, 512, alpha, multiplier, layer=7) 
	Img_In = Depth_Conv(Img_In, 512, alpha, multiplier, layer=8) 
	Img_In = Depth_Conv(Img_In, 512, alpha, multiplier, layer=9) 
	Img_In = Depth_Conv(Img_In, 512, alpha, multiplier, layer=10) 
	Img_In = Depth_Conv(Img_In, 512, alpha, multiplier, layer=11) 
	layer4 = Img_In 

	return img_input , [layer1 , layer2 , layer3 , layer4 ]

首先输入图片shape依旧为224*224，通道数为3，为进行对比，先将两个参数alpha和multiplier都设置为1，然后再更改参数比较模型参数量和模型大小的变化。

第一层：进行Conv函数，filters为32，步长为（2,2），对图片进行卷积操作，再通过Depthwise_Conv函数进行卷积，filters为64，分别对块号进行标记，最终输出特征层命名为layer1。

第二层：进行两次Depthwise_Conv函数，filters为128，分别对块号进行标记，最终输出特征层命名为layer2。

第三层：进行两次Depthwise_Conv函数，filters为256，分别对块号进行标记，最终输出特征层命名为layer3。

第四层：进行六次Depthwise_Conv函数，filters为512，分别对块号进行标记，最终输出特征层命名为layer4。

最后将卷积处理后的结果保存传入Decoder部分，获取经过四次压缩后的特征图，将特征层传入SegNet的解码网络进行解码。

④解码过程

与CNN的解码过程一样，就是相同的上采样扩张操作。

4.训练结果

图1 CNN参数量

图2 MobileNet参数量

MobileNet的总参数（在alpha参数为1的情况下）如图2所示为5541378个，相比于CNN减少了6007424个参数。

图3 MobileNet模型大小

图4 CNN模型大小

如图3图4所示，MobileNet生成的h5文件大小为12541KB，而CNN生成的h5文件大小为45188KB，是MobileNet的3至4倍，可见MobileNet这种轻型网络作为主干网络确实可以明显减小模型大小。

图5. Mobielnet

图6. Mobielnet训练集准确率

图7. Mobielnet验证集准确率

图8. 原图

图9. 分割图

自己电脑跑不起来，用师兄的电脑跑了一下，总的来说效果还不错图8图9是用camvid训练30epoch的效果，如果训练的epoch多一些的话效果会更好一些。

Van-bo

关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
MobileNet学习记录-基于MobileNetV1的自动驾驶图像语义分割实现

1. MobileNet基础及架构Mobielnet学习记录-概念篇2. 实现思路为了便于实现，还是采用了Encoder-Decoder结构，利用MobileNet来进行特征提取，相较于CNN的卷积操作，最大的不同就是MobileNet的深度可分离卷积，其他步骤基本一样。MobileNet的网络结构如上图所示，首先通过一个3x3的标准卷积（步长为2），然后经过多个深度可分离卷积，特征提取完成后，然后采用平均池化将feature变成1x1，根据预测类别大小加上全连接层，最后经过sof.
复制链接

扫一扫