Macine Learning是什么
https://www.youtube.com/watch?v=fegAeph9UaA&list=PLJV_el3uVTsPy9oCRY30oBPNLCo89yu49&index=3
scenario:学习的方法
task:要解决的问题
method:同一个问题可以用不同的方法解决。
reinforcement learning 从评价中学习。
深度学习三步
一些网络结构
Convolution Neural Network
https://www.youtube.com/watch?reload=9&v=FrKWiRv254g&feature=youtu.be&list=PLJV_el3uVTsPy9oCRY30oBPNLCo89yu49
Convolution 是省略了部分权重的full connect
反向卷积原理
CNN学到的规律,和人学到的不一样
DeepLearning自带模组化
Recurrent Neural Network
https://www.youtube.com/watch?v=xCGidAeyS4M&feature=youtu.be&list=PLJV_el3uVTsPy9oCRY30oBPNLCo89yu49
Elman Network将中间层的权重存起来,供下一次中间层运算。
Jordan Network将输出结果存起来,供下一次中间层运算。(效果比较好)
一个LSTM有4个input一个output
LSTM参数数量是普通,神经元的4倍
xt运算后得到zo,zo包含k个纬度(k是神经元个数)
RNN存在的问题:损失函数很陡峭
因为同一个参数累乘很多次,要么没影响,要么天崩地裂的影响。
解决方法LSTM
用RNN做吧一个语音信号Encoder成一个向量,用查找算法可以查找有关信息。
一起Train encoder和decoder
RNN的进阶版本:Attention-based Model
Fully Connected Layer
Recurrent Neural Network
rnn可以用比较少的参数解决问题。
比较深的rnn
GRU
不是因为学到两个不同的1,之后合起来。是因为我们设计了这个合起来的结构它自动找到两个不同的1.
Computational Graph
Chain rule
梯度
共享的变量算梯度,把同样的变量看成不一样的变量,最后将梯度加起来。
向量对向量偏微分
W2指第二层的W
简化计算图
language model
Spatial Transformer Layer
只要将权重做不同的设计即可
将GRU改成Highway Network