
机器学习-深度学习
文章平均质量分 86
记忆星尘
这个作者很懒,什么都没留下…
展开
-
Attention Transformer 精简原理总结
一. AttentionAttention函数的本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射。在计算attention时主要分为三步,第一步,是将query和每个key进行相似度计算得到权重,常用的相似度函数有点积,拼接,感知机等;第二步,使用一个softmax函数对这些权重进行归一化;第三步,将权重和相应的键值value进行加权求和得到最后的attention。二. Self-Attention对于self-attention来讲,Q(...原创 2020-06-21 18:20:41 · 884 阅读 · 0 评论 -
综述 词向量与分布式表示
从古老的one-hot表示法,到大热的Word2vec系列的分布式表示方法,再到现在惊艳的预训练模型ELMo、BERT等,技术迭代迅速,这其中包含许多内容需要我们学习,例如语言模型LM、Transformer、CBOW、SkipGram等等。接下来本文归纳梳理,逐一介绍。目录1、词的表示1、词的表示1.1 离散表示(one-hot representation)把每个...原创 2020-02-21 17:18:55 · 10848 阅读 · 0 评论 -
自然语言处理中的自注意力机制(Self-attention Mechanism)
自然语言处理中的自注意力机制(Self-attention Mechanism)近年来,注意力(Attention)机制被广泛应用到基于深度学习的自然语言处理(NLP)各个任务中,之前我对早期注意力机制进行过一些学习总结(可见http://www.cnblogs.com/robert-dlut/p/5952032.html)。随着注意力机制的深入研究,各式各样的attention被研究者们提出...转载 2020-02-19 16:19:42 · 7213 阅读 · 0 评论 -
LSTM神经网络
转自 http://m.blog.csdn.net/article/details?id=52081301简单理解LSTM神经网络递归神经网络 在传统神经网络中,模型不会关注上一时刻的处理会有什么信息可以用于下一时刻,每一次都只会关注当前时刻的处理。举个例子来说,我们想对一部影片中每一刻出现的事件进行分类,如果我们知道电影前面的事件信息,那么对当前时刻事件的转载 2017-01-15 11:27:58 · 1044 阅读 · 0 评论