万字长文|如何直观解释卷积神经网络的工作原理？

最新推荐文章于 2024-05-04 11:45:00 发布

asd8705

最新推荐文章于 2024-05-04 11:45:00 发布

阅读量881

点赞数

分类专栏：深度学习

深度学习专栏收录该内容

11 篇文章

订阅专栏

原文地址：https://mp.weixin.qq.com/s/1y5WD_vRfoSmGPbJ2-e86Q

万字长文|如何直观解释卷积神经网络的工作原理？

2017-07-23 专注报道AI 量子位

作者：YJango
日本会津大学|人机交互实验室博士生
量子位已获授权编辑发布

该文是对卷积神经网络的介绍，并假设你理解前馈神经网络。

如果不是，强烈建议读完《如何简单形象又有趣地讲解神经网络是什么？》这篇文章后后再来读该篇。

推荐文章链接：

https://www.zhihu.com/question/22553761/answer/126474394

下面进入正题，开始我们的卷积神经网络之旅——

目录

视觉感知
- 画面识别是什么
- 识别结果取决于什么
图像表达
- 画面识别的输入
- 画面不变形
前馈神经网络做画面识别的不足
卷积神经网络做画面识别
- 局部连接
- 空间共享
- 输出空间表达
- Depth维的处理
- Zero padding
- 形状、概念抓取
- 多filters
- 非线性
- 输出尺寸控制
- 矩阵乘法执行卷积
- Max pooling
- 全连接层
- 结构发展
画面不变性的满足
- 平移不变性
- 旋转和视角不变性
- 尺寸不变性
- Inception的理解
- 1x1卷积核理解
- 跳层连接ResNet

视觉感知

一. 画面识别是什么任务？

学习知识的第一步就是明确任务，清楚该知识的输入输出。卷积神经网络最初是服务于画面识别的，所以我们先来看看画面识别的实质是什么。

先观看几组动物与人类视觉的差异对比图。

1. 苍蝇的视觉和人的视觉的差异

2. 蛇的视觉和人的视觉的差异

△ 更多对比图请参考http://chuansong.me/n/2656056

通过上面的两组对比图可以知道，即便是相同的图片经过不同的视觉系统，也会得到不同的感知。

这里引出一条知识：生物所看到的景象并非世界的原貌，而是长期进化出来的适合自己生存环境的一种感知方式。蛇的猎物一般是夜间行动，所以它就进化出了一种可以在夜间也能很好观察的感知系统，感热。

任何视觉系统都是将图像反光与脑中所看到的概念进行关联。

所以画面识别实际上并非识别这个东西客观上是什么，而是寻找人类的视觉关联方式，并再次应用。如果我们不是人类，而是蛇类，那么画面识别所寻找的f就和现在的不一样。

画面识别实际上是寻找（学习）人类的视觉关联方式

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。