VGG-16详解

最新推荐文章于 2024-06-14 21:57:21 发布

三少的笔记

最新推荐文章于 2024-06-14 21:57:21 发布

阅读量2.6k

点赞数

分类专栏：科研工具文章标签：深度学习 pytorch 神经网络

本文链接：https://blog.csdn.net/weixin_40893448/article/details/120082653

版权

科研工具专栏收录该内容

29 篇文章 1 订阅

订阅专栏

VGG-16示例

理解：
不易理解的地方：
扩充：结合VGG-16视频及文档学习

在这里插入图片描述
Vgg11-19

理解：

输入图像为2242243，大小为：224224，深度为：3（通道数）
3364卷积：33表示卷积核大小，64为图像深度，即卷积核的个数
卷积核：只改变图像的深度（即卷积核的个数），不改变图像的大小
池化：只改变图像的大小,不改变图像的深度
Tensor：就像ndarray一样,一维Tensor叫Vector，二维Tensor叫Matrix，三维及以上称为Tensor

不易理解的地方：

参数说明：其中的64,128,512都是手动指定的（这也是为什么到了第五次卷积核池化之后图像深度仍是512的原因）包括后面的全连接层4096,1000
77512过渡到114096：他是怎样有多维转化为以为的？其实在他们之间有一个过渡函数x = x.view(x.size(0), -1)。因为分类器是一个简单的nn.Linear()结构，输入输出都是维度为一的值，x = x.view(x.size(0), -1) 这句话的出现就是为了将前面多维度的tensor展平成一维。其中-1表示会自适应的调整剩余的维度，(直接填-1表示拉直，等价于tensor_name.flatten())，从这里我们可以看得出来，view函数如其名，只改变“看起来”的样子，不会改变张量在内存中的排列。可参考：链接1和链接2
全连接层：一共有三个全连接层，在前两个全连接层是由relu和Dropout构成，而最后一层是用softmax进行激活，对于softmax来说，它能够将图片的输入转化为类别的输出。

扩充：结合VGG-16视频及文档学习

视频链接（视频中使用的代码为Keras框架）：
https://www.bilibili.com/video/BV1ta411c7Sx/?spm_id_from=333.788.recommend_more_video.2
文档链接（pytorch框架）：
https://zhuanlan.zhihu.com/p/87555358
视频中代码链接：https://pan.baidu.com/s/1AMQs7Zss3Xwa1Y7qfK_q_A
提取码：15pn

总结不易，喜欢请点赞！！！！！

三少的笔记

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
VGG-16详解

VGG-16示例理解：不易理解的地方：扩充：结合VGG-16视频及文档学习Vgg11-19理解：输入图像为2242243，大小为：224224，深度为：3（通道数）3364卷积：33表示卷积核大小，64为图像深度，即卷积核的个数卷积核：只改变图像的深度（即卷积核的个数），不改变图像的大小池化：只改变图像的大小,不改变图像的深度Tensor：就像ndarray一样,一维Tensor叫Vector，二维Tensor叫Matrix，三维及以上称为Tensor不易理解的地方：参数说明：其中的
复制链接

扫一扫