大模型技术总结
文章平均质量分 70
RAG(大模型应用开发1.0,2.0) + 微调(文章总结)
sccum
这个作者很懒,什么都没留下…
展开
-
大模型微调--文章1
答案:灾难性遗忘就是在学习了新的知识之后,会把之前旧的知识遗忘,这主要是因为权重更新的冲突,也是全量微调的一个弊端;答案:简单来说就是低秩分解类似的,还没有更深的理解;原创 2024-08-13 15:08:34 · 217 阅读 · 0 评论 -
大模型微调--文章2
答案:冻结不需要更新的参数答案:bitfit的主要思想是改变某些层中的bias参数答案:离散的模板在自然语言处理(NLP)任务中,尤其是在与预训练语言模型交互时,是指以自然语言文本形式编写的固定提示或框架,用来引导模型生成特定的输出。这种模板是由人类直接设计或通过自动化方法生成的,由于其离散性和固定性,称为“离散的模板”。离散性是因为它们由固定的、不可分割的自然语言单元组成,具有明确的边界,并且在使用时作为一个整体来使用,不可分割。答案:指的是在输入数据的前面加上可以预训练的向量,在整个过程中进行迭代。原创 2024-08-13 15:57:18 · 532 阅读 · 0 评论 -
大模型微调--文章3
答案:自然语言理解,是自然语言处理(NLP)中的一个重要子领域,涉及理解和处理人类语言的语义和语法,以便机器能够从文本中提取有意义的信息。NLU任务通常涉及对文本的深层次理解,包括解析句子结构、理解上下文、推理隐含意义。答案:prefix tuning是在每一层中插入可学习的前缀嵌入序列,而不是直接影响输入,在transformer每一层都添加前缀;p-tuning是直接在输入层中插入可学习的提示词(软提示),优化这些提示词以提高任务性能,仅在输入层进行更改,在其他层没有操作。原创 2024-08-13 15:58:29 · 309 阅读 · 0 评论 -
大模型微调---文章4
答案:Adapter是轻量级微调+模块化设计,具体体现在只增加少量的参数,但是不改变原始模型的主干结构。答案:Adapter Drop是为了推理加速,因为在Adapter fusion中加入了大量的参数,在模型推理过程中,会变慢,所以就随机地丢弃Transformer较低的层来加速推理。原创 2024-08-13 15:59:13 · 285 阅读 · 0 评论 -
大模型微调---文章5
答案:Lora是抵秩分解,主要原因是在微调之后发现各种线性层并不是满秩,都是具有很低的本征秩,主要作用在Attention模块中的4种权重矩阵,通过消融实验发现同时调整Wq和Wv会产生最佳效果答案:思想是:先将模型进行量化处理,减少模型参数的内存占用,然后使用Lora方法在低秩近似空间中对模型进行微调。技术原理是:量化+Lora答案:量化是将模型的高精度权重(如32位浮点数)转化为低精度格式(8位或者4位)。量化的方法:后量化:在模型训练完成后,将模型的权重量化为更低的精度。原创 2024-08-13 15:59:49 · 360 阅读 · 0 评论 -
大模型微调---文章6
答案:MAM Adapter是将prefix tuning,adapter,lora三种高效微调方法进行了整合。答案:将不同的PELT方法作为子模块,并通过门控机制学习激活最适合当前数据或任务的方法答案:3.1:Bitfit:仅微调bias3.2:prefix tuning:在每一个层的前端加入可迭代的前缀向量(软提示)3.3:prompt tuning:仅在输入端的向量前端加入可迭代的前缀向量(软提示)原创 2024-08-13 16:00:34 · 261 阅读 · 0 评论 -
Datawhale开源学习--大模型应用开发(1.0)
答:GPT模型主要是decoder-only模型架构,缺少了原始Transformer架构中的交叉注意力结构。当前绝大多数大语言模型结构都采用了类似 GPT 架构,使用基于 Transformer 架构构造的仅由解码器组成的网络结构,采用自回归的方式构建语言模型。但是在位置编码、层归一化位置以及激活函数等细节上各有不同。(如下图所示)原创 2024-07-27 21:53:08 · 1002 阅读 · 0 评论 -
Datawhale开源学习--大模型应用开发(2.0)--Task1
为了对人类语言的内在规律建模,提出语言模型来准确预测词序列中下一个词或者缺失的词的概率。原创 2024-08-10 15:01:26 · 638 阅读 · 0 评论 -
Datawhale开源学习--大模型应用开发(2.0)--Task2
通过RAG和微调用来制作一个可以生成单元测试的大模型工具。原创 2024-08-10 19:17:35 · 194 阅读 · 0 评论 -
Datawhale开源学习--大模型应用开发(2.0)--Task3
在研究RAG之前,先来研究一下为什么需要RAG,原因主要是下面三点:1.大模型预训练知识的局限性:对于大模型预训练的数据是从网络上公开的资源,对于一些实时的或者非公开的资源,大模型无法获取,当然也就没有这方面的知识;2.数据安全性:为了能够使大模型具有某方面的能力,需要将数据纳入训练,对于企业来说,数据的泄露是致命的;3.大模型幻觉:大模型在它不擅长的领域中,会出现胡说八道的情况。原创 2024-08-11 16:16:29 · 218 阅读 · 0 评论