LLM
文章平均质量分 62
transformer_WSZ
You Only Look Once!
展开
-
LLM Inference Performance Engineering
https://www.databricks.com/blog/llm-inference-performance-engineering-best-practices原创 2024-06-12 01:17:05 · 397 阅读 · 0 评论 -
LLaMA2详解
llama系列训练和推理都是right padding:more。原创 2024-05-24 01:57:15 · 326 阅读 · 0 评论 -
GPU利用率
英伟达官方的GPU利用率的定义如下:GPUUtilrate=number of active SMnumber of total SM×100%GPU Util rate = \frac{number \ of \ active \ SM}{number \ of \ total \ SM} \times 100\%GPUUtilrate=number of total SMnumber of active SM×100%上述代码片段将在单个流多处理器(SM)上启动指定的内核(线程)。根据常规理原创 2024-05-20 01:42:19 · 1169 阅读 · 0 评论 -
Attention Sink
论文发现自回归LLM存在的一个有趣现象:对于输入文本最靠前的少量几个token,无论它们在语义上与语言建模任务的相关性如何,大量的注意力分数都会分配给他们,如下图所示:more模型的前两层还能保持attention score更多分配给当前token附近位置的特性,而在其他层,靠前的几个token都会接受到大量的注意力。尽管这些token在语义上很可能并没有什么重要性,但它们却聚集了大量的注意力分数。出现这个现象的原因就是softmax操作。原创 2024-05-12 16:50:44 · 542 阅读 · 0 评论 -
RAG讲解
现有的LLM已经具备了理解、生成、逻辑和记忆能力,RAG(Retrieval Augmented Generation)则是为其套上外挂,使LLM能够访问训练数据来源之外的权威知识库,并生成领域特定的内容,而无须重新训练模型。more。原创 2024-05-12 15:04:25 · 320 阅读 · 0 评论 -
从loss角度理解LLM涌现能力
本文从预训练loss角度观察了模型涌现能力是如何发生的。其结论也给业界评估模型在下游任务上的性能提供了全新的视角,即预训练loss,而不是模型参数量、数据量、训练计算量。但本文并未从理论角度解释loss与涌现能力的关系,更多地是根据后验进行启发式分析,也未给出2.2的合理说明。但DL一直这么玄学,不是吗?原创 2024-05-12 02:12:12 · 912 阅读 · 0 评论 -
SwiGLU激活函数
SwiGLU激活函数已经成为LLM的标配了。原创 2024-05-09 02:08:51 · 943 阅读 · 0 评论 -
现代GPU内存分级结构
要实现CUDA高性能编程,就必须对GPU内存结构有深刻的了解。more。转载 2024-04-22 01:04:25 · 67 阅读 · 0 评论 -
PEFT-LISA
LISA是LoRA的简化版,但其抓住了LoRA微调的核心,即LoRA侧重更新LLM的底层embedding和顶层head。more。原创 2024-04-03 01:36:29 · 298 阅读 · 0 评论 -
大模型融合方法-DARE
LLM在SFT之后会产生大量的冗余参数(delta参数),阿里团队提出DARE方法来消除delta参数,并将其合并到PRE模型中,从而实现多源模型能力的吸收。mt∼Bernoullipδt1−mt⊙δtδtδt1−pθDAREtδtθPREEnotmaskxEmaskpp∗x传统的模型融合只是对神经元进行加权求和,这样会导致模型能力骤降。DARE方法通过dropout避免了这种问题。原创 2024-03-30 17:39:04 · 775 阅读 · 0 评论 -
GPT的实现细节
关于GPT的代码细节,这里梳理了一下:more。原创 2024-03-18 02:27:35 · 1036 阅读 · 0 评论 -
LLM长上下文外推方法
下面是一些提升LLM长度外推能力的方法总结:more。原创 2024-03-10 03:49:34 · 673 阅读 · 0 评论 -
模型量化入门
量化已经是LLM部署和推理的必备环节了,在此了解一下:more。原创 2024-01-29 02:06:48 · 333 阅读 · 0 评论 -
Mixtral Moe代码解读
title: Mixtral Moe代码解读toc: true一直对稀疏专家网络好奇,有些专家没被选中,那么梯度是否为0,这一轮被选中有梯度,下一轮没被选中无梯度,模型可以训练收敛吗?more。原创 2024-01-11 02:51:13 · 761 阅读 · 0 评论 -
Win11+Docker搭建CUDA开发环境
最近入门了CUDA编程,先记录下搭建环境过程。more由于在windows和wsl上折腾了好久,装cuda、cudnn、cmake、gcc等软件,还经常遇到依赖、版本许多问题,最终污染了系统环境。在朋友的安利下,采用docker容器开发方案,试一下真香。原创 2023-12-24 18:27:25 · 1517 阅读 · 0 评论 -
DPO讲解
PPO算法的pipeline冗长,涉及模型多,资源消耗大,且训练极其不稳定。DPO是斯坦福团队基于PPO推导出的优化算法,去掉了RW训练和RL环节,只需要加载一个推理模型和一个训练模型,直接在偏好数据上进行训练即可:[外链图片转存中…(img-zz2PfNyG-1702835338094)]moreLDPOπθ;原创 2023-12-18 01:49:24 · 2304 阅读 · 0 评论 -
常见的LLM推理加速解决方案
KV Cacheint量化PagedAttentionGQASpeculative DecodingcodeAccelerating Generative AI with PyTorch II: GPT, FastFast Inference from Transformers via Speculative Decoding参考PyTorch造大模型“加速包”,不到1000行代码提速10倍!英伟达科学家:minGPT以来最好的教程式repo之一原创 2023-12-03 17:39:27 · 600 阅读 · 0 评论 -
RLHF讲解
RLHF包含了两个至关重要的步骤:RLHF理论篇原创 2023-11-13 02:34:20 · 576 阅读 · 0 评论 -
LLM微调过程中灾难性遗忘问题解决方法
灾难性遗忘是LLM微调过程中最常见的问题,下面是一些解决办法:more。原创 2023-11-06 02:50:21 · 2027 阅读 · 0 评论 -
Self-Instruct
本篇工作利用LLM的生成能力,来产生大量指令数据集(指令、输入、输出),无需人工标注数据。千万不要误解成了模型自己生成输入和标签,然后自己学习,自娱自乐。其中,在对任务判别的时候,需要区分是输出优先还是输入优先。原创 2023-10-13 02:20:58 · 138 阅读 · 0 评论 -
大模型微调方法
下面是一些参数高效的微调大模型方法:more。原创 2023-09-19 01:06:24 · 683 阅读 · 0 评论