神经网络
1.卷积神经网络CNN
适用于图像训练


卷积层
提取图像的局部特征(如边缘、纹理、形状等),将局部特征转为一个值
填充
保证输出的维度

步幅
隔几个步长移动一次窗口
卷积核
池化层
降低特征图的空间尺寸(降维),减少计算量,增强模型的鲁棒性
2.循环神经网络RNN
一个时间步输出一个隐藏状态

3.LSTM
为了缓解RNN梯度消失和梯度爆炸的问题


遗忘门
忘记之前多长时间的状态
输入门
控制从当前状态要存入多少新的信息
输出门
控制从记忆单元中读取多少信息作为当前时间步的隐藏状态
4.seq2seq
1.前向传播
编码器:由循环神经网络构成(将信息保存到隐藏状态中),将隐藏状态信息传递给解码器

解码器:也是由神经网络构成,基于编码器传递的向量,逐步生成目标序列
训练阶段,解码器的每次一输入不是使用上一次的预测结果,而是真实的结果

解码器计算损失值
累加每一个真实和预测的结果,计算总损失

2.反向传播
函数调用
5.Transform
1.架构图

编码解码图
原理图

Q 是“提问者”,K 是“索引标签”,V 是“实际内容”。
qkv为权重参数,下图表示第一个词和其它词的上下文信息
注意力机制:包含其它词的位置信息和其它词的上下文信息
、


1万+

被折叠的 条评论
为什么被折叠?



