大模型技术细节
文章平均质量分 88
seetimee
这个作者很懒,什么都没留下…
展开
-
大模型无限上下文的奥秘已被揭开
无限(Infini)上下文其实有些标题党博眼球的成分,首先,这里更新记忆的方式并不是无损保留记忆,对于历史信息是有舍弃有保留的。这对于超长文本的推理,仍然可能造成一些遗忘前文关键信息的问题。其次,结构中左边的记忆部分,所占空间也不小。有人戏称,这是在用一个大模型和一个知识库,在做实时RAG。不过这个工作的亮点确实很多,因为这个记忆模块是可插拔模块,可以嵌入到任何大模型中。而且确实在计算量上,实现了线性拓展。原创 2024-08-07 17:00:19 · 996 阅读 · 0 评论 -
大模型中的temperature、topk、topn、repetition_penalty等参数原理
核心就在于采样策略,一图胜千言:上图中(language model) 的预测输出其实是字典中所有词的概率分布,而通常会选择生成其中概率最大的那个词。不过图中出现了一个采样策略 (sampling strategy),这意味着有时候我们可能并不想总是生成概率最大的那个词。设想一个人的行为如果总是严格遵守规律缺乏变化,容易让人觉得乏味;同样一个语言模型若总是按概率最大的生成词,那么就容易变成 XX讲话稿了。原创 2024-07-23 14:36:50 · 870 阅读 · 0 评论 -
LLM Continue Pretrain
在小规模的实验(模型参数量小,训练数据少)下continue pretrain,得到一些实验数据点,用实验数据点拟合上述公式,得到拟合参数值,就可以算更大参数量下的domain loss和通用loss。语言类的domain和long context的数据更难学习,前者是因为语言的gap导致初始loss偏高,但随着不断的训练,loss会稳定下降,但遗忘程度高,最优配比高,后者对资源的消耗更高,遗忘程度高,最优配比高。但随着模型参数量的增大,洗这么干净的数据合理么?模型是不是到了后面,自己就能做一些区分了?原创 2024-07-12 14:09:13 · 993 阅读 · 0 评论 -
transformer显存占用计算
mask矩阵形状[b, s, d],显存占用bsd bytes。:mask矩阵形状[b, s, d],显存占用bsd bytes。:mask矩阵形状[b, h, s, s],显存占用bhs。:形状[b, s, 4d],显存占用8bsd bytes。:形状[b, s, d],显存占用2bsd bytes。:形状[b, s, d],显存占用2bsd bytes。:形状[b, h, s, s],显存占用2bhs。:形状[b, h, s, s],显存占用2bhs。:形状[b, s, d],QK。原创 2024-07-03 11:37:48 · 425 阅读 · 0 评论 -
大模型常见面试题
2、batchnorm论文认为:模型一般有多层,前一层的输出是后一层的输入,而训练中前一层的参数更新会导致后一层的输入数据分布变化导致ICS(internal covariate shift),这样后面的层就不得不频繁剧烈更新适应分布变化,导致分布偏移进入激活函数饱和区而出现梯度消失,另外分布变化也是对i.i.d.条件的破坏。对于GQA,每层有n组K和V,每组的特征维度和Q的每个头的特征维度相同,为D/h。4.连续性:比如一个二维张量,如果按行优先展开成一维的结果,和物理储存顺序是一致的,就是连续的。原创 2024-07-01 19:17:09 · 1683 阅读 · 0 评论 -
LLama2和chatGLM2细节优化
1)原创 2024-06-29 23:09:25 · 675 阅读 · 0 评论 -
为什么大模型结构设计中往往使用postNorm而不用preNorm?
*如果不进行Wamrup,那么模型一开始就快速地学习,由于梯度消失,模型对越靠后的层越敏感,也就是越靠后的层学习得越快,**然后后面的层是以前面的层的输出为输入的,前面的层根本就没学好,所以后面的层虽然学得快,但却是建立在糟糕的输入基础上的。很快地,后面的层以糟糕的输入为基础到达了一个糟糕的局部最优点,此时它的学习开始放缓(因为已经到达了它认为的最优点附近),同时反向传播给前面层的梯度信号进一步变弱,这就导致了前面的层的梯度变得不准。而因为pre Norm实际层数少了导致效果变差了。原创 2024-06-29 14:11:34 · 1619 阅读 · 0 评论 -
谷歌Gemma-2大模型技术报告
开源的模型大小为9B和27B,还有一个小的2.6B玩具。1.3T token训练(比起最近开源的模型,这个数量不算多。RLHF中RM模型,作者强调比SFT的模型更大,应该是想要寻求一定的泛化而不仅仅是安全。注意力机制上使用了滑动窗口和全局注意力结合。用了一个叫Logit soft-capping的技术,给logit输出值的范围做了一个限制,目测有利于训练的稳定性。用 RMSNorm做了Post-norm and pre-norm。用了模型蒸馏和模型融合。GQA。原创 2024-06-28 12:18:49 · 1052 阅读 · 0 评论 -
softmax介绍和attention下的时间复杂度
没想到制约attention、transformer效率的竟然不只是QVT矩阵,softmax往往也占据大量计算量。原创 2024-06-27 21:13:16 · 490 阅读 · 0 评论 -
qwen2理论/改进点
除英语和中文外,还接受过 27 种语言的数据培训显着提高编码和数学表现;Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 的扩展上下文长度支持高达 128K 令牌更详细的benchmark建议去看官网blog。原创 2024-06-20 10:15:46 · 1529 阅读 · 0 评论