深度学习
development of deep learning
Three step of deep learning
step 1
这个function
其实就是一个neural network
,就是将所有的logistics regression
连接在一起,用不同的方法连接这些logistics regression
,就可以得到不同的structure
,每一个logistics regression
都有自己的weight
跟bias
,这些weight
跟bias
结合起来,就是这个neural work
的parameter
,用Θ
表示
最简单的链接方式:Fully connected feedforward network
fully
:每一个neural
都与后面的layer
的所有neural
相连,feedforward
:从第一个传给第二个,第二个传给第三个。。。
当只是将这些function
连接起来其实就是得到了一个function set
,为这些function
设置不同的参数就会得到不同的network
neural network
的运作常常用Matrix Operation
来表示
所以可以用matrix
来定义模型集合
深度学习的函数集合可以理解成Logistic Regression的套娃
注1:图中每一个圆圈,就是一个neuron(神经元),即上一章的一个Logistic Regression,但其中不一定是sigmoid函数,还可能是其它的激活函数(Activation Function)
注2:x所在层(最左侧)是Input Layer,但并不是严格意义上的layer,只是一个输入;y所在层是Output Layer;中间的即为Hidden layer(隐藏层)
Example
假如要识别图片里的数字2,确定了input layer
是256,output layer
是10
那其实就是确定中间的hidden layer
有几层,每一层有多少个neuron
,怎么连接的,即确定network
的structure
,最后就得到了一个function set
step 2
得到了一个function set
,就要计算Loss
从而选择出最好的function
Loss for an example
计算出每一个data
的Cross Entropy
,然后求和得到Loss
step 3
找到最好的模型,更之前一样,用梯度下降法。找到一个有最小Loss
的function