计算机视觉实践 - 街景字符编码识别/关于Task3的一些笔记

最新推荐文章于 2024-09-14 19:18:15 发布

fayeeenn

最新推荐文章于 2024-09-14 19:18:15 发布

阅读量165

点赞数

分类专栏： CV DeepLearning 文章标签：神经网络深度学习计算机视觉人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kongaiqin/article/details/106364401

版权

CV 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

字符识别模型

学习情况
经典的卷积神经网络
- AlexNet
- VGG

学习情况

重点学习一下AlexNet和VGG的模型，跑完步回来码！
…回来了！
没赶上DataWhale的直播课，等一下录播课~自己先研究一下卷积神经网络框架吧！
今天开始重新看吴老师的深度学习课，再复习一下推导过程。

经典的卷积神经网络

AlexNet

AlexNet是Hinton的学生Alex Krizhevsky在2012年提出的卷积神经网络，这个框架真的太经典了。感觉从12年这个框架的提出之后，深度学习CNN就开始进入人们的视线，基于深度学习CNN的算法开始占据各大cv比赛的榜首。 AlexNet模型图
上图是AlexNet提出当时的图，可以看到它呈现出的是双GPU并行的模型。我对双GPU的理解是：将两个GPU中的权重进行共享，提高训练的效率。特点有：

无padding层，保证了网络的全卷积性
使用ReLU激活函数，比基于Sigmoid的网络训练快很多
Dropout
8层

VGG

VGG是Oxford的Visual Geometry Group的组提出的。比较典型的是VGG16和VGG19，两者没有明显的差别，就是深度不同。

VGG16相比AlexNet的一个改进是采用连续的几个3x3的卷积核代替AlexNet中的较大卷积核（11x11，7x7，5x5）。对于给定的感受野（与输出有关的输入图片的局部大小），采用堆积的小卷积核是优于采用大的卷积核，因为多层非线性层可以增加网络深度来保证学习更复杂的模式，而且代价还比较小（参数更少）。
VGG

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。