MobileNet v1算法解读

最新推荐文章于 2024-07-26 08:59:41 发布

‘Atlas’

最新推荐文章于 2024-07-26 08:59:41 发布

阅读量955

点赞数

分类专栏：深度学习论文详解文章标签： MobileNet v1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41994006/article/details/94299721

版权

论文详解同时被 2 个专栏收录

72 篇文章 17 订阅

订阅专栏

45 篇文章 5 订阅

订阅专栏

论文地址：MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

1、简介

Mobilenet v1是Google于2017年发布的网络架构，旨在充分利用移动设备和嵌入式应用的有限的资源，有效地最大化模型的准确性，以满足有限资源下的各种应用案例。

2、网络结构

2.1Depthwise Separable Convolution

MobileNet v1的核心为深度可分离卷积。fig2分别展示了标准卷积、深度可分离卷积（Depthwise convolution）以及Pointwise Convolution。

深度可分离卷积简单来说是每个channel层独自进行卷积操作，输入为DF*DF*M，输出为DF*DF*M，kernal为DK*DK*1。

每个channel计算量为DK*DK*DF*DF，总计算量为DK*DK*DF*DF*M。

深度可分离卷积没有融合各个channel之间特征，因此对depthwise输出层通过1*1卷积（pointwise）进行线性融合，产生新特征。

pointwise层输入为DF*DF*M，kernal为1*1*M，输出通道为N，最终输出为DF*DF*N，因此计算量为DF*DF*M*N

而标准卷积计算量为：DK*DK*DF*DF*M*N。

因此Depthwise Separable convolutions with Depthwise and Pointwise layers与标准卷积计算量之比如如所示：

可见MobileNet v1采用的这种Depthwise Separable convolutions极大减小了计算量。

2.2网络结构

MobileNet v1整个网络结构如表一所示。

2.3模型宽度乘子与分辨率乘子

模型宽度乘子α取值为：0.25，0.5，0.75，1。

α用于改变输入channel M为αM，输出chanel N为αN。因此Depthwise Separable convolutions计算量变为：

DK · DK · αM · DF · DF + αM · αN · DF · DF

分辨率乘子ρ ∈ (0, 1]，输入分辨率为224, 192, 160 or 128。ρ=1时，输入分辨率为224*224，改变ρ的大小，从而输入分辨率变为ρ*224.

3.实验

表4对比Depthwise Separable convolutions与全连接层在ImageNet上的准确率以及计算量与参数量。

表5比较窄一些的网络结构与浅一些的网络结构。

表6比较不同宽度乘子下，模型性能。

表7比较不同分辨率乘子下模型性能。

表12是人脸属性分类领域的比较结果。

表13是目标检测方面的对比。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

‘Atlas’ CSDN认证博客专家 CSDN认证企业博客

码龄6年

103: 原创

2518: 周排名

1万+: 总排名

48万+: 访问

: 等级

3198: 积分

2万+: 粉丝

373: 获赞

175: 评论

1884: 收藏

私信

关注

分类专栏

论文详解 72篇
工程实践 6篇
数据集 1篇
NLP 1篇
3D重建 5篇
通用分割 6篇
实例分割 10篇
数据生成 23篇
跨模态 25篇
虚拟试衣 6篇
图像修复 1篇
工具 1篇
视频生成 7篇
文本识别 1篇
Transformer 8篇
风格迁移 1篇
自监督 1篇
姿态估计 3篇
联邦学习 2篇
姿态迁移 2篇
image translation 1篇
GNN 1篇
深度学习 45篇
机器学习 3篇
Python 6篇
anaconda 1篇
数据结构 1篇
安装 1篇
目标检测 10篇

最新评论

BLIP2-图像文本预训练论文解读
刚刚好�994: 您好，请问您现在实现了吗？
BLIP2-图像文本预训练论文解读
zuixiao1209: 想问一下博主，那第二生成式阶段，只有可学习query embedding作为图像transformer的输入和图像编码器的结果进行交互得到最后QFormer的输出吗？不存在文本输入到文本transformer里？然后QFormer的输出进入全连接层和LLM
BLIP2-图像文本预训练论文解读
失落的艺术: 这个query embeding和输入图像经过ImageEncoder得到的向量是一个东西吗？还是另外又增加了一个随机向量Query embeding？
BLIP2-图像文本预训练论文解读
巷猫和斑马: 可学习的query embedding就是Q-Former中图像编码器的输入，因为在BLIP2中Image Encoder被冻结了，所以无法通过调整Image Encoder的参数使得学习到的图像特征向量与文本特征向量align，所以使用可学习的Query作为代替，它可以同时考虑图像和文本的特征，以此作为align的桥梁
BLIP2-图像文本预训练论文解读
小喜久: 想问一下，在Q-Former左侧的图像transformer中的可学习query embedding是什么呀

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。