深度学习
文章平均质量分 92
JJmaker
一点点地成长
展开
-
LSTM 与 GRU
LSTM全称:Long Short-Term Memory 长短期记忆网络大致结构如图所示(不想用软件画图。。。):三个门已经在图中表示了出来。下面将逐步介绍。图中最上面的C是最主要的传输流。遗忘门:ft=δ(Wf⋅[ht−1,Xt])f_t = \delta(W_f\cdot[h_{t-1},X_t])ft=δ(Wf⋅[ht−1,Xt])(这里b放入了XtX_tXt中)...原创 2018-11-18 22:55:08 · 221 阅读 · 0 评论 -
bert 原理及源码分析(一)
全称:Bidirectional Encoder Representations from Transformers,即双向 transformer的encoder 表示。Embeddingembedding 由 3 种 embedding 求和而成:Token Embeddings:词向量Segment Embeddings:句向量Position Embeddings:位置向量P...原创 2019-07-28 20:59:36 · 2958 阅读 · 0 评论