原文地址:https://mp.weixin.qq.com/s/1y5WD_vRfoSmGPbJ2-e86Q
万字长文|如何直观解释卷积神经网络的工作原理?
作者:YJango
日本会津大学|人机交互实验室博士生
量子位 已获授权编辑发布
该文是对卷积神经网络的介绍,并假设你理解前馈神经网络。
如果不是,强烈建议读完《
推荐文章链接:
https://www.zhihu.com/
下面进入正题,开始我们的卷积神经网络之旅——
目录
-
视觉感知
-
画面识别是什么
-
识别结果取决于什么
-
-
图像表达
-
画面识别的输入
-
画面不变形
-
-
前馈神经网络做画面识别的不足
-
卷积神经网络做画面识别
-
局部连接
-
空间共享
-
输出空间表达
-
Depth维的处理
-
Zero padding
-
形状、概念抓取
-
多filters
-
非线性
-
输出尺寸控制
-
矩阵乘法执行卷积
-
Max pooling
-
全连接层
-
结构发展
-
-
画面不变性的满足
-
平移不变性
-
旋转和视角不变性
-
尺寸不变性
-
Inception的理解
-
1x1卷积核理解
-
跳层连接ResNet
-
视觉感知
一. 画面识别是什么任务?
学习知识的第一步就是明确任务,清楚该知识的输入输出。
先观看几组动物与人类视觉的差异对比图。
1. 苍蝇的视觉和人的视觉的差异
2. 蛇的视觉和人的视觉的差异
△ 更多对比图请参考http://chuansong.me/n/ 2656056
通过上面的两组对比图可以知道,
这里引出一条知识:生物所看到的景象并非世界的原貌,
任何视觉系统都是将图像反光与脑中所看到的概念进行关联。
所以画面识别实际上并非识别这个东西客观上是什么,
画面识别实际上是寻找(学习)人类的视觉关联方式