![](https://img-blog.csdnimg.cn/20190927151053287.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
transformer
文章平均质量分 93
动手动手
iiimZoey
这个作者很懒,什么都没留下…
展开
-
transformer李宏毅(二)
大多数nlp问题都可以变成QA问题,比如翻译,问题就是这些输入的翻译是什么?但是特定的任务还是要结合不同模型来解决,seq2seq像一个啥都能用的瑞士刀。。。但是切水果肯定还是水果刀用的好。。。原创 2024-03-13 14:32:37 · 387 阅读 · 1 评论 -
transformer李宏毅(一)
你会注意什么?大数据(什么数据都有,重要的,不重要的)对于重要的数据,我们要使用对于不重要的数据,我们不太想使用但是,对于一个模型而言(CNN、LSTM),很难决定什么重要,什么不重要由此,注意力机制诞生了(有人发现了如何去在深度学习的模型上做注意力)红色的是科学家们发现,如果给你一张这个图,你眼睛的重点会聚焦在红色区域人--》看脸文章看标题段落看开头后面的落款这些红色区域可能包含更多的信息,更重要的信息注意力机制:我们会把我们的焦点聚焦在比较重要的事物上。转载 2024-03-09 14:04:25 · 22 阅读 · 0 评论 -
精读transformer模型(limu)
循环层是要我们知道,如果你的序列是长的 N 话,它就一个一个做运算,每个里面它的主要的计算就是一个 N 乘以 N 的矩阵,一个你就是一个 dance layer 然后再乘以你一个长为 D 的一个输入,所以它是一个 N 平方,然后要做 N 次,所以是 N 乘 D 平方。2 种常见的注意力机制:加性的注意力机制(它可以处理你的 query 和 key 不等长的情况,点积 dot-product 的注意力机制 (本文采用 scaled,➗ sqrt(dk) ),所以你可以看到它的名字它叫做 scale 的。转载 2023-12-04 15:11:21 · 354 阅读 · 0 评论