Transformer系列
文章平均质量分 67
分享Transformer的最新研究进展。
leo0308
兴趣领域: 大模型, 具身智能。
github: https://github.com/leo038
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
7种流行Prompt设计模式详解:适用场景与最佳实践
本文介绍了7种提升大型语言模型性能的Prompt设计模式:1)思维链模式(CoT)通过分步推理提升复杂任务准确性;2)角色扮演模式赋予模型专业视角;3)少样本学习模式通过示例引导格式化输出;4)自我反思模式通过批判性评估提高输出质量;5)宪法AI模式确保输出符合伦理规范;6)检索增强生成(RAG)结合外部信息提高准确性;7)思维树模式通过多路径探索优化解决方案。每种模式都详细说明了核心原理、适用场景和使用要点,为开发者提供了系统化的Prompt设计方法论。原创 2025-09-05 11:24:08 · 1118 阅读 · 1 评论 -
DINOv3不同尺寸模型效果比较
可以看到, 4个尺寸的模型都能较好的提取到图像的特征。实际使用时可以根据硬件情况合理选用, 不用盲目追求大的模型。选取 29M, 86M, 300M和840M 4个尺寸的模型进行特征可视化对比。原创 2025-09-02 16:52:33 · 493 阅读 · 0 评论 -
DINOv2 vs DINOv3 vs CLIP:自监督视觉模型的演进与可视化对比
论文链接官方主页/代码CLIP 由 OpenAI 提出,是多模态自监督学习的里程碑。它通过在互联网规模的图像-文本对上进行对比学习,使模型能够理解图像内容与自然语言之间的对应关系。其核心思想是:将图像和文本映射到同一语义空间,使得匹配的图文对距离更近,不匹配的更远。优点支持零样本分类(Zero-shot Classification),无需微调即可迁移到新任务。泛化能力强,在多种下游任务中表现优异。局限依赖大量带噪声的图文对数据。图像特征偏向全局语义,缺乏细粒度的密集特征。原创 2025-08-28 16:47:15 · 2066 阅读 · 0 评论 -
修改HuggingFace模型默认缓存路径
huggingface模型的默认缓存路径是通常修改为自己的路径会更为方便。原创 2025-03-18 19:57:58 · 1225 阅读 · 0 评论 -
无需tokenizer--Byte Latent Transformer: Patches Scale Better Than Tokens
https://mp.weixin.qq.com/s/7ju-PjPZVPrBLQ1qFnFoKw原创 2024-12-17 12:00:30 · 288 阅读 · 0 评论 -
深入理解Transformer中的位置编码
由于注意力的作用机制,不论输入序列的顺序如何,输出结果都是一样的。也就是丢失了位置信息。但是对于语言模型, 我们都知道顺序是很重要的, 所以需要对输入序列额外注入位置信息。从图上可以看出, 序列位置与位置编码有个近似的线性关系, 同时还有一定的周期特性,因此位置编码一定程度上反应了序列中的位置信息。Transformer 论文中采用了简单的相对位置编码, 用sin 和cos函数表示序列中不同位置的信息。横轴表示嵌入维度, 纵轴是token在序列中的位置, 如输入是一个长度是32的序列。原创 2024-11-03 22:01:47 · 797 阅读 · 0 评论 -
自然语言处理的分词与词嵌入
NLP中分词, 词嵌入详解。原创 2023-07-05 23:35:31 · 1027 阅读 · 0 评论 -
Transformer模型深入理解
1 模型总览整个模型的结构是标准的Encoder-Decoder结构, Encoder部分堆叠6个相同的encoder层, Decoder部分同样堆叠6个相同的decoder层。继续深入模型的内部, 每个encoder层包含2部分: 一个自注意力层和一个前馈层。每个decoer层包含3部分: 一个自注意力层, 一个交叉注意力层和一个前馈层。再继续深入,网络还采用了残差结构, 每个自注意力层和前馈层之后都进行了残差连接, 并且使用了归一化。2 Attention机制理解3 实例解析4 参考原创 2021-11-21 20:13:41 · 2219 阅读 · 3 评论 -
HAT: Hardware-Aware Transformers for Efficient Natural Language Processing论文解读
1 介绍Transformer网络取得了非常大的成功并具有广泛的应用。 然而由于它巨大的计算代价,使得部署到手机等端侧设备面临巨大的挑战。在评估Transformer网络的效率时有两个常见的陷进: 1) FLOPs不能反映真实的时延; 2)不同硬件偏好不同的Transformer结构。上图表明, 在一个硬件上表现好的网络在另一个硬件上表现反而不好。上图表明: 1)FLOPs在lateny并不完全是线性关系; 2)不用硬件的影响因素不同。受NAS成功的启发, 我们提出了搜索硬件感知的Transf原创 2021-12-14 23:52:19 · 3394 阅读 · 0 评论 -
Dynamic Transformer for Efficient Machine Translation on Embedded Devices论文解读
0 引言这篇文章是基于HAT做的, 主要解决的是嵌入式设备运行时的资源状态和搜索网络时不一致的问题, 在运行时还会动态微调网络,这就是标题中Dynamic的体现。 关于HAT可参考我的另一篇博客HAT: Hardware-Aware Transformers for Efficient Natural Language Processing论文解读1 动机传统的网络搜索都是静态的, 也就是说对于一个特定的硬件设备, 我们会搜索一个在这个设备上最优的网络。 但是嵌入式设备上情况要复杂一些, 比如设备原创 2022-04-02 20:27:06 · 375 阅读 · 0 评论 -
Transformer最新综述
0 前言Transformer在人工智能领域取得了非常的成功, 如NLP, CV, 音频处理等等。 针对Transformer的改进工作也层出不穷, 这些Transformer的变体大概可以分为3类:模型结构的优化, 预训练, 以及Transformer的应用。1 模型结构的优化1.1 模块级的优化1.1.1 注意力机制1.1.1.1 稀疏Attention1.1.1.2 线性Attention1.1.1.3 查询原型和内存压缩1.1.1.4 低秩自注意力1.1.1.5 先验的注意力1原创 2021-12-17 20:29:46 · 5257 阅读 · 0 评论 -
Vision Transformer综述
0 前言Transformer在NLP领域取得了巨大的成功, 大量研究者开始在视觉领域尝试Transformer, 并取得了很多优于传统CNN网络的结果。这些研究大致可以归为以下几类:backbone, high/mid-level vision, low-level vision, video processing, muti-modal task, efficient transformer.下表列出了每一个分类里面的代表性工作, 可以作为一份学习指南。1 典型工作1.1 backbone原创 2021-12-19 22:31:24 · 781 阅读 · 0 评论 -
共享权重的Transformer网络
论文:[Lessons on Parameter Sharing across Layers in Transformers](Lessons on Parameter Sharing across Layers in Transformers)代码:https://github.com/takase/share_layer_params1 介绍这篇文章提出了三种Transformer网络权重共享的方式, 降低了参数量。 在同参数量的情况下可以达到比原始Transformer网络更高的精度。假设参原创 2022-03-29 16:54:32 · 3016 阅读 · 0 评论 -
深层Transformer的一些工作
0 引言自从Transforme提出之后, 在各个领域获得了巨大的成功。 在提升精度这条道路上, 有很多的改进工作。提升精度一个的一个常用做法就是把模型变大, 增大模型的容量, 从而提升模型的精度。 增大模型有2个方向,一个是增加宽度, 另一个是增加宽度。 像Transformer-big版本就是增加了宽度。但是对Transformer网络, 单纯地直接增加深度通常会遇到梯度消失/爆炸等造成训练不稳定的问题。 因此需要额外的手段解决这些问题。本文分享几篇通过不同方式加深Transformer网络深度原创 2022-04-01 20:06:22 · 789 阅读 · 0 评论
分享