- 博客(6)
- 收藏
- 关注
原创 浅谈Attention is All You Need之三
3-掩码多头注意力,要分训练和推理两个阶段来看,推理阶段实际本身就看不到未来,之所以放在这里,是为了保证和训练时一直,因为模型已经习惯了有掩码的推理方式,而且推理阶段没有这个结构,最终结果会大打折扣,就像你学车时要左转,先看后视镜,再打灯,然后边转边观察,考出驾照后左转,也是相同的一套流程,已经形成规则,但凡少了一步,可能结果会不同。你可能听说过扁鹊三兄弟的故事,扁鹊以医术高超闻名,但他自己却说他与两位兄长比,差远了,真正的高手,治的是未病,所以一切的平淡,波澜不惊背后,可能是更高的智慧。
2026-01-15 10:59:22
356
原创 浅谈Attention is All You Need之二
2-注意这里的三个箭头,不是随便画的,而是代表三个权重矩阵,对应Query,Key,Value,每个进入的token经过这三个矩阵,被赋予了三种角色,这三种角色将在后续的token间的多头自注意力机制并行运算中充分参与,相当与相亲大会上每个俊男靓女每人带着三张标签,一张(query)写我想找什么样的对象,一张(key)写我是富二代,我爱跑车这样的标签,一张写具体我有多少钱多少房产具体什么豪车,有了这三种标签,后面大家对眼神时就是并行计算时,就容易找到心仪对象,也就是相似度高的另一半了。
2026-01-14 16:56:27
438
原创 浅谈Attention is All You Need
2007年12月谷歌发表了《Attention is All You Need》,这篇论文在人工智能发展历史上是里程碑式的,它犹如灯塔一般,为后续的发展指明了方向。当前人类文明的发展在地球40多亿年的历史长河中如沧海一粟,像此篇论文这样的科学之光是人类智慧结晶,希望2026世界和平,世界多一些爱,让科技真正造福人类。
2026-01-13 16:17:57
589
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅