文章目录
问题
1. MSE表示形式??(1-y_hat*f)^2
正式内容
Training Procedure: function-set , loss , optimization
Function-Set perceptron VS. Multi-layer perceptron
perceptron
perceptron:why bias?
一个neuron和a layer of neurons
这种线性结构放在二维里无法解决XOR问题
中间都是没有hidden层的,每一个Y的输出都是独立的,之间没有相关性。
Multi-layer perceptron
没有hidden
一层(可模拟任意函数(两层神经网络))and两层hidden
DNN
Layer Output Relation公式会写出
Activation Function为什么选择non-linear?否则神经网络可合并
- boolean
- linear
- non-linear
如何评估是否是一个好的function——Loss
Optimization
自己推导Page68-69
Why mini faster than SGD
一些tips
随机初始化
LR
Learning Recipe