李宏毅老师课程：Deep Learning

最新推荐文章于 2024-08-26 21:24:47 发布

APythonC

最新推荐文章于 2024-08-26 21:24:47 发布

阅读量498

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/APythonC/article/details/107446446

版权

机器学习专栏收录该内容

25 篇文章 1 订阅

订阅专栏

深度学习

Neural Network
Example Application（应用范例）

Neural Network

概念

把多个Logistic Regression前后connect在一起，然后把一个Logistic Regression称之为neuron，整个称之为neural network
在这里插入图片描述
用不同的方法连接这些neuron，可以得到不同的structure，neural network里的每一个Logistic Regression都有自己的weight和bias，这些weight和bias集合起来，就是这个network的parameter，我们用θ来描述

Fully Connect Feedforward Network(全连接前馈网络)

如果一个neural network的参数weight和bias已知的话，它就是一个function，它的input是一个vector，output是另一个vector，这个vector里面放的是样本点的feature，vector的dimension就是feature的个数
在这里插入图片描述
如果今天我们还不知道参数，只是定出了这个network的structure，只是决定好这些neuron该怎么连接在一起，这样的一个network structure其实是define了一个function set(model)，我们给这个network设不同的参数，它就变成了不同的function，把这些可能的function集合起来，我们就得到了一个function set

下图中，每一排表示一个layer，每个layer里面的每一个球都代表一个neuron

layer和layer之间neuron是两两互相连接的，layer 1的neuron output会连接给layer 2的每一个neuron作为input
对整个neural network来说，它需要一个input，这个input就是一个feature的vector，而对layer 1的每一个neuron来说，它的input就是input layer的每一个dimension
最后那个layer L，由于它后面没有接其它东西了，所以它的output就是整个network的output
这里每一个layer都是有名字的：
input的地方，叫做input layer，输入层(严格来说input layer其实不是一个layer，它跟其他layer不一样，不是由neuron所组成的)
output的地方，叫做output layer，输出层
其余的地方，叫做hidden layer，隐藏层
每一个neuron里面的sigmoid function，在Deep Learning中被称为activation function(激励函数)
有很多层layers的neural network，被称为DNN(Deep Neural Network)

因为layer和layer之间，所有的neuron都是两两连接，所以它叫Fully connected的network；因为现在传递的方向是从layer 1->2->3，由后往前传，所以它叫做Feedforward network

Matrix Operation（矩阵运算）

network的运作过程，我们通常会用Matrix Operation来表示，以下图为例：
在这里插入图片描述

写成矩阵运算的好处是，可以用GPU加速，GPU对matrix的运算是比CPU要来的快的，所以我们写neural network的时候，习惯把它写成matrix operation，然后call GPU来加速它

Example Application（应用范例）

Handwriting Digit Recognition（手写数字识别）

input是一张image，对机器来说一张image实际上就是一个vector，假设这是一张16*16的image，那它有256个pixel，对machine来说，它是一个256维的vector，image中的每一个都对应到vector中的一个dimension，简单来说，我们把黑色的pixel的值设为1，白色的pixel的值设为0

而neural network的output，如果在output layer使用了softmax，那它的output就是一个突出极大值的Probability distribution，假设我们的output是10维的话(10个数字，0~9)，这个output的每一维都对应到它可能是某一个数字的几率，实际上这个neural network的作用就是计算这张image成为10个数字的几率各自有多少，几率最大(softmax突出极大值的意义所在)的那个数字，就是机器的预测值

在这里插入图片描述
在这个手写字体识别的demo里，我们唯一需要的就是一个function，这个function的input是一个256的vector，output是一个10维的vector，这个function就是neural network(这里我们用简单的Feedforward network)

input固定为256维，output固定为10维的feedforward neural network，实际上这个network structure就已经确定了一个function set(model)的形状，在这个function set里的每一个function都可以拿来做手写数字识别，接下来我们要做的事情是用gradient descent去计算出一组参数，挑一个最适合拿来做手写数字识别的function

注：input、output的dimension，加上network structure，就可以确定一个model的形状，前两个是容易知道的，而决定这个network的structure则是整个Deep Learning中最为关键的步骤

所以这里很重要的一件事情是，我们要对network structure进行design，之前在做Logistic Regression或者是linear Regression的时候，我们对model的structure是没有什么好设计的，但是对neural network来说，我们现在已知的constraint只有input是256维，output是10维，而中间要有几个hidden layer，每个layer要有几个neuron，都是需要我们自己去设计的，它们近乎是决定了function set长什么样子

Step 1：Neural Network

在这里插入图片描述

Step 2：Goodness of function

定义一个function的好坏，由于现在我们做的是一个Multi-class classification，所以image为数字1的label “1”告诉我们，现在的target是一个10维的vector，只有在第一维对应数字1的地方，它的值是1，其他都是0
在这里插入图片描述
input这张image的256个pixel，通过这个neural network之后，会得到一个output；而从这张image的label中转化而来的target；有了output 和target 之后，要做的事情是计算它们之间的cross entropy(交叉熵)，这个做法跟我们之前做Multi-class classification的时候是一模一样的

Step 3：Pick the best function

接下来就去调整参数，让这个cross entropy越小越好，当然整个training data里面不会只有一笔data，你需要把所有data的cross entropy都sum起来，得到一个total loss ，得到loss function之后你要做的事情是找一组network的parameters，它可以minimize这个total loss，这组parameter对应的function就是我们最终训练好的model
在这里插入图片描述
接下来使用Gradient Descent去使total loss minimize

在deep learning里面用gradient descent，跟在linear regression里面使用完全没有什么差别，只是function和parameter变得更复杂了而已，其他事情都是一模一样的

现在你的θ里面是一大堆的weight、bias参数，先random找一个初始值，接下来去计算每一个参数对total loss的偏微分，把这些偏微分全部集合起来，就叫做gradient，有了这些偏微分以后，你就可以更新所有的参数，都减掉learning rate乘上偏微分的值，这个process反复进行下去，最终找到一组好的参数，就做完deep learning的training了
在这里插入图片描述
本文图片来自李宏毅老师课程PPT，文字是对李宏毅老师上课内容的笔记或者原话复述，在此感谢李宏毅老师的教导。