
Transformer
文章平均质量分 95
Transformer相关
胡侃有料
流水不争先,争的是滔滔不绝
展开
-
【多模态】IMAGEBIND论文阅读
IMAGEBIND 多模态论文梗概IMAGEBIND是一种夸模态的神经网络,以图片为中心,联合六中模态的网络(图片、文字、音频、深度图、热力图、惯性测量单元)原创 2025-05-11 18:03:59 · 1006 阅读 · 0 评论 -
【LLAMA】羊驼从LLAMA1到LLAMA3梳理
LLAMA 1到3梳理在之前的大语言模型(GPTs)中,基于模型越大效果越好进行实验。然而,Hoffmann等人(2022)最近的工作表明,对于给定的计算预算,最佳性能不是由最大的模型实现的,而是由经过更多数据训练的较小模型实现的。Hoffmann等人(2022)的缩放定律的目标是确定如何最佳地缩放特定训练计算预算的数据集和模型大小。然而,这个目标忽略了推理时间,这在大规模服务语言模型时变得至关重要。因为大部分社区用户其实没有训练 LLM 的资源,他们更多的是拿着训好的 LLM 来推理。原创 2025-02-19 19:03:54 · 1133 阅读 · 0 评论 -
【GPT】从GPT1到GPT3
从GPT1 到GPT3时间模型参数量层数词向量长度训练数据2018.6GPT1117M127685G2019.2GPT248160040G2020.5GPT3175B3612288570G关于参数,如下是GPT2-small示例:参考。原创 2025-02-19 16:07:29 · 1431 阅读 · 0 评论 -
【Bert】自然语言(Language Model)入门之---Bert
对bert进行梳理原创 2025-02-19 16:02:49 · 1202 阅读 · 0 评论 -
【分词|tokenization】分词方法梗概
分词方法梗概。原创 2025-02-19 10:00:55 · 930 阅读 · 0 评论 -
【位置编码|Position】位置编码之---正余弦位置编码
位置编码(Position Encoding)是自然语言处理(NLP)和其他序列模型(如 Transformer)的一个关键概念,用于为输入序列中的每个元素提供位置信息。在处理序列数据时,模型需要了解元素之间的相对位置,以便更好地理解上下文和顺序。周期是Tbaseid∗2πTbaseid∗2π,下图是d = 100,i = 10,不同base的情况随着base的增大,周期随之增加,这样重复的值就会少。原创 2025-02-19 09:56:18 · 780 阅读 · 0 评论 -
【Transformer】detr之loss逐行梳理(四)
detr之loss逐行梳理匹配,预测框和gt框进行匹配计算损失""""""self.num_classes = num_classes # 数据集类别数self.matcher = matcher # HungarianMatcher() 匈牙利算法 二分图匹配self.weight_dict = weight_dict # dict: 18 3x6 6个decoder的损失权重 6*(loss_ce+loss_giou+loss_bbox)原创 2024-04-26 14:52:27 · 1632 阅读 · 0 评论 -
【Transformer】detr之decoder逐行梳理(三)
detr之decoder逐行梳理。原创 2024-04-23 16:42:01 · 1797 阅读 · 1 评论 -
【Transformer】detr之encoder逐行梳理(二)
detr之encoder逐行梳理。原创 2024-04-22 16:14:33 · 629 阅读 · 0 评论 -
【Transformer】detr之backone逐行梳理(一)
detr 之backbone逐行梳理。原创 2024-04-22 13:54:54 · 1456 阅读 · 0 评论 -
【Transformer】detr梳理
detr。原创 2024-04-18 09:38:52 · 666 阅读 · 0 评论 -
【Transformer】Swin梳理
every blog every motto: You can do more than you think.https://blog.csdn.net/weixin_39190382?type=blogswin论文: https://arxiv.org/pdf/2103.14030v1.pdf时间: 2021.3.25作者: Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo网原创 2024-04-18 09:37:37 · 339 阅读 · 0 评论 -
【Transformer】vit梳理
vit梳理。原创 2024-04-18 09:35:17 · 905 阅读 · 0 评论 -
【Transformer】transformer注解
transformer注解在过去的一年里,《Attention is all you need》中的transformer一直萦绕在很多人的脑海里。除了在翻译质量上产生重大改进之外,它还为许多其他NLP任务提供了一种新的架构。论文本身写得很清楚,但传统观点认为很难正确执行。在这篇文章中,我将以逐行实现的形式呈现论文的注释版本。我重新整理并删除了原论文中的一些章节,并在全文中添加了注释。这个文档本身就是一个工作笔记本,应该是一个完全可用的实现(可以在jupyter notebook中运行)。原创 2024-03-23 21:10:35 · 1001 阅读 · 0 评论 -
【RNNsearch】neural machine translation by jointly learning to align and translate阅读与思考
neural machine translation by jointly learning to align and translate阅读与思考作为transformer的前传,同时,作为在nlp中第一篇注意力机制相关文章,还是很有必要一读。本文的主要贡献是打破了此前翻译中encoder-decoder需将句子变换到一个固定的长度,采用自适应方法。arxiv第一版时间为2014年。原创 2023-12-22 16:11:54 · 1135 阅读 · 0 评论 -
【Transformer】从attention走向Transformer
从attention到Transformer变化过程原创 2023-06-07 15:38:36 · 787 阅读 · 0 评论