深度学习
RealDuxy
在路上
个人微信:duxiyang430105
欢迎同行交流
展开
-
Transformer的简单总结
1. encoder1.1 词嵌入除了在最底层的编码器的输入来自词嵌入的词向量,其余的解码器的输入则来自下一层解码器的输出。对于每个编码器,接收的是一个向量列表。比如词向量维512维,一句话有30个词,输入便是(30*512)1.2 self-attention 自注意力层每个单词的输入路径不同。512维词向量,10个词,经过三个权重层WQ,WK,WVW_Q,W_K,W_VWQ,WK,WV,每个词分别生成query vector, key vector, value vector, 这三原创 2020-10-14 16:02:18 · 619 阅读 · 0 评论 -
指针生成网络(PGN)的简单总结
基于RNN的seq2seq:好处: 用于文本生成,可以用于抽象总结。坏处: 不准确的复制事实细节;无法处理OOV;生成文本有重复倾向;长文本下效果效果倾向于language modelPGN分析:通过指针从原文复制单词,有效处理OOV,保留产生新词的能力。通过COVERAGE机制对重复单词给予惩罚。1. seq2seq with attention 过程input x=(x1,x2,...,xTx)input \ x = (x_1,x_2,...,x_{T_x})input原创 2020-10-14 15:34:42 · 2245 阅读 · 2 评论 -
深度学习(一):神经网络, 反向传播, 梯度消失, 梯度爆炸, 激活函数(附numpy代码)
注:本文所提的神经网络在这里特质多层前馈神经网络一个简单的神经网络基础结构包括三个,线性映射,激活层,隐藏层。如图,输入层的输入向量经过一个线性映射,在经过一个激活层,到达了第一个隐藏层,随着网络的加深,重复线性映射,激活层,隐藏层的过程直至到达输出层。流程很简单,但是需要理解几个问题。1. 线性映射是什么?假设如图所示,输入向量为四维向量X=[x1,x2,x3,x4]X=[x_1,x_2,x_3,x_4]X=[x1,x2,x3,x4],则经过图中的权重矩阵W1W_1W1便是一次线性映射原创 2020-10-03 22:00:17 · 689 阅读 · 2 评论