通俗理解卷积神经网络

最新推荐文章于 2024-07-12 11:45:29 发布

xiaoyue月

最新推荐文章于 2024-07-12 11:45:29 发布

阅读量2.4k

点赞数 1

1 前言

2012年我在北京组织过8期machine learning读书会，那时“机器学习”非常火，很多人都对其抱有巨大的热情。当我2013年再次来到北京时，有一个词似乎比“机器学习”更火，那就是“深度学习”。

本博客内写过一些机器学习相关的文章，但上一篇技术文章“LDA主题模型”还是写于2014年11月份，毕竟自2015年开始创业做在线教育后，太多的杂事、琐碎事，让我一直想再写点技术性文章但每每恨时间抽不开。然由于公司在不断开机器学习、深度学习等相关的在线课程，耳濡目染中，总会顺带学习学习。

我虽不参与讲任何课程（我所在公司“七月在线”的所有在线课程都是由目前讲师团队的17位讲师讲），但依然可以用最最小白的方式把一些初看复杂的东西抽丝剥茧的通俗写出来。这算重写技术博客的价值所在。

在dl中，有一个很重要的概念，就是卷积神经网络CNN，基本是入门dl必须搞懂的东西。本文基本根据斯坦福的机器学习公开课、cs231n、与七月在线寒老师讲的5月dl班第4次课CNN与常用框架视频所写，是一篇课程笔记。一开始本只是想重点讲下CNN中的卷积操作具体是怎么计算怎么操作的，但后面不断补充，故写成了关于卷积神经网络的通俗导论性的文章。

有何问题，欢迎不吝指正。

2 人工神经网络

2.1 神经元

神经网络由大量的神经元相互连接而成。每个神经元接受线性组合的输入后，最开始只是简单的线性加权，后来给每个神经元加上了非线性的激活函数，从而进行非线性变换后输出。每两个神经元之间的连接代表加权值，称之为权重（weight）。不同的权重和激活函数，则会导致神经网络不同的输出。

举个手写识别的例子，给定一个未知数字，让神经网络识别是什么数字。此时的神经网络的输入由一组被输入图像的像素所激活的输入神经元所定义。在通过非线性激活函数进行非线性变换后，神经元被激活然后被传递到其他神经元。重复这一过程，直到最后一个输出神经元被激活。从而识别当前数字是什么字。

神经网络的每个神经元如下

类似wx + b的形式，其中

a1~an为输入向量，当然，也常用x1~xn表示输入
w1~wn为权重
b为偏置bias
f 为激活函数
t 为输出

如果只是上面这样一说，估计以前没接触过的十有八九又必定迷糊了。事实上，上述简单模型可以追溯到20世纪50/60年代的感知器，可以把感知器理解为一个根据不同因素、以及各个因素的重要性程度而做决策的模型。

举个例子，这周末北京有一草莓音乐节，那去不去呢？决定你是否去有3个因素，这三个因素可以对应三个输入，分别用x1、x2、x3表示。此外，这三个因素对做决策的影响程度不一样，各自的影响程度用权重w1、w2、w3表示。一般来说，音乐节的演唱嘉宾会非常影响你去不去，唱得好的前提下即便天气不好、没人陪同都可忍受，但如果唱得不好还不如你上台唱呢。所以，我们可以如下表示：