普通网友-CSDN博客

原创大模型LLM量化 , 5个基础技术知识

写这篇文章原因下载 qwen 110B 模型发现不同量化占的内存差异很大,就想搞明白到底量化会着重影响哪方面的推理能力Qwen1.5-110B-Chat的显存全精度部署(32 精度)占用220GB;8bit量化部署Qwen1.5-110B需要113GB显存;4bit量化部署Qwen1.5-110B，需要62GB显存大型语言模型（LLMs）的量化是减小其大小和内存使用的关键策略，同时努力保持其质量。这种压缩技术对于在计算能力有限的设备上部署高级模型至关重要2 种量化方式。

2024-07-08 22:21:11 1010

原创整车智能大模型应用研究探析

综上所述，大模型在汽车的应用具有跨时代的意义，也是通过海量数据的训练使得功能形成了真正意义上具有综合分析能力的智能体。无论是智能驾驶还是智能交互，其都能通过擅长的多模态感知、综合分析、科学决策实现接近人脑思考方式的功能执行链，满足多变的场景的无数的需求。

2024-07-08 22:20:31 1369

原创大语言模型的训练技巧

批量大小指的是在每个训练步骤（epoch）中同时处理的样本数量。在大语言模型中，由于模型规模庞大，批量大小通常会较大。

2024-07-03 17:46:14 1088

原创新手入门：大语言模型训练指南

在这个信息爆炸的时代，人工智能技术正以前所未有的速度渗透到我们生活的方方面面。从智能手机上的语音助手到自动驾驶汽车，AI的应用无处不在。而在这些令人惊叹的技术背后，大语言模型（LLM）扮演着至关重要的角色。它们不仅能够理解和生成自然语言，还能在多种场景下提供智能决策支持。然而，对于许多对AI感兴趣的新手来说，大语言模型的训练和应用似乎是一件高不可攀的事情。复杂的技术术语、晦涩的理论知识，以及高昂的硬件要求，往往让人望而却步。但其实，只要掌握正确的方法和工具，每个人都能成为AI领域的探索者和实践者。本文将带你

2024-07-03 17:45:36 1176

原创通俗解读大模型微调(Fine Tuning)

开始之前，为了方便大家理解，我们先对大模型做一个直观的抽象。输入序列 X = [x1, x2, …, xm]，输出序列Y = [y1, y2, …, yn]，X和Y之间的关系是：Y = WX。我们所说的“大模型”这个词：“大”是指用于训练模型的参数非常多，多达千亿、万亿；而“模型”指的就是上述公式中的矩阵W。在这里，矩阵W就是通过机器学习，得出的用来将X序列，转换成Y序列的权重参数组成的矩阵。这里为了方便理解，做了大量的简化。在实际的模型中，会有多个用于不同目的的权重参数矩阵，也还有一些其它参数。

2024-07-03 17:42:29 1605

原创大模型技术在辅助学习中的应用

大模型技术在辅助学习中的应用场景非常广泛，以下是一些典型示例。大模型技术在辅助学习中具有广阔的应用前景，可以为学生提供更加个性化、智能化和高效的学习体验。随着大模型技术的不断发展，我们可以期待在未来看到更多创新应用。大模型可以根据每个学生的学习特点和需求，生成个性化的学习计划和学习内容。例如，可以根据学生的知识薄弱点，生成针对性的练习题；或者根据学生的兴趣爱好，推荐相关的学习资源。大模型可以扮演智能辅导员的角色，实时解答学生的疑问，并提供学习指导。例如，当学生遇到难题时，大模型可以提供详细的解题步骤和讲解。

2024-07-03 17:41:55 777

原创大模型应用的10种架构模式

在塑造新领域的过程中，我们往往依赖于一些经过实践验证的策略、方法和模式。这种观念对于软件工程领域的专业人士来说，已经司空见惯，设计模式已成为程序员们的重要技能。然而，当我们转向大模型应用和人工智能领域，情况可能会有所不同。面对新兴技术，例如生成式AI，我们尚缺乏成熟的设计模式来支撑这些解决方案。作为一位老码农，我在这里整理总结了一些针对大模型应用的设计方法和架构模式，试图应对和解决大模型应用实现中的一些挑战，如成本问题、延迟问题以及生成的不准确性等。

2024-07-03 17:41:24 1012

原创大模型微调方案设计和能力整合

本文将介绍大模型应用开发相关的知识地图。总述核心要素应用案例在构建大型模型应用时，技术架构的规划至关重要。整体架构可被划分为四个层次：基础设施层、模型工具层、模型引擎层及大模型应用层。（1）基础设施层：涵盖了数据服务、云平台及开源社区等多个方面，为应用开发提供坚实的基础。数据服务：大规模模型对数据的要求极高，厂商可通过自主标注数据或采购外部数据的方式满足需求。

2024-07-03 17:40:31 423

原创大模型：帮助企业基于领域大模型构建未来应用

大模型，通常指的是具有巨大参数规模和复杂网络结构的深度学习模型。这类模型通过海量的数据进行训练，能够学习到丰富的特征表示和复杂的模式关系，从而在多个任务上展现出卓越的性能。大模型的主要优势在于其强大的表达能力和泛化能力，能够处理复杂多变的数据和任务。近年来，随着计算能力的提升和数据资源的丰富，大模型技术在自然语言处理、计算机视觉、语音识别等领域取得了显著的进展。

2024-06-29 23:40:37 1195

原创 LLM大模型技术实战6：一文总结大模型微调方法

大模型会成为AI时代的一项基础设施。作为像水、电一样的基础设施，预训练大模型这样的艰巨任务，只会有少数技术实力强、财力雄厚的公司去做。绝大多数人，是水、电的应用者。对这部分人来说，掌握如何用好大模型的技术，更加重要。用好大模型的第一个层次，是掌握用好大模型的第二个层次，是，这也是今天这篇文章的主题。为什么要对大模型进行微调通常，要对大模型进行微调，有以下一些原因：第一个原因是，因为大模型的参数量非常大，，每家公司都去从头训练一个自己的大模型，这个事情的性价比非常低；第二个原因是，。

2024-06-29 23:33:02 1400

原创大模型LLM，微调经验分享全面总结

大型语言模型横行，之前非常焦虑，现在全面拥抱。目前也有很多开源项目进行大模型微调等，笔者也做了一阵子大模型了，特此来介绍一下ChatGLM-6B模型微调经验，并汇总了一下目前开源项目&数据。笔者与很多人微调结论不同，本人在采用单指令上进行模型微调，发现模型微调之后，

2024-06-29 23:32:27 1270

原创 AI赛道，普通人翻盘的黄金机遇！！

为什么说AI赛道是普通人翻盘的黄金机遇呢？自从ChatGPT火爆全球以来，AI技术已经逐渐渗透到我们生活的方方面面，从智能家居到自动驾驶，从虚拟助手到医疗诊断，它正在以前所未有的速度改变着世界。AI技术的普及，首先带来的是就业市场的巨大变革。那些掌握AI技术并具有创新意识的普通人往往可以通过创办自己的公司或加入创新型企业实现个人价值，并在市场竞争中脱颖而出。同时，在传统行业中，掌握一定程度AI知识的普通员工也很有可能因此受益，在工作中表现出色并获得更好的职业发展机会。

2024-06-25 16:48:17 1061

原创大模型在持续学习中的最新进展：综述

社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。转载自 | 专知近年来，基础语言模型（LMs）在自然语言处理（NLP）和计算机视觉（CV）领域取得了显著成就。与传统神经网络模型不同，基础语言模型通过在大量无监督数据集上进行预训练，获得了丰富的常识知识，并且具有强大的迁移学习能力。然而，由于灾难性遗忘，基础语言模型仍然无法模拟人类的持续学习能力。

2024-06-25 16:47:28 2138

原创干货，人民大学《大语言模型》PDF全文分享

前段时间，人民大学初版了《大语言模型》一书，涵盖了模型架构、模型预训练、部署使用、智能体等内容。整体而言，《大语言模型》全面介绍了大语言模型的技术背景、发展过程、关键技术、资源、训练方法、微调技术、人类对齐、部署应用以及未来趋势，为读者提供了一个关于大语言模型技术的深入视角。大语言模型的发展历程：文章首先介绍了大语言模型的背景，包括ChatGPT的上线、大语言模型技术的重要性以及其发展历程，从统计语言模型到神经网络语言模型，再到预训练语言模型。

2024-06-25 16:42:39 1043

原创大模型微调方法总结

自然语言处理目前存在一个重要范式：一般领域数据的大规模预训练，对特定任务或领域的适应（finetune）。但是随着预训练语言模型越来越大，这个范式存在以下问题：● 当我们 finetune 大模型时，由于训练成本太高，不太可能重新训练所有模型参数● 以前的方法（论文发表于 2021 年）都或多或少有其它性能问题，如 adapter 增加了模型层数，引入了额外的推理延迟；prefix-tuning 比较难训练，效果不如直接 finetune。

2024-06-19 17:46:39 968

原创大模型炼丹术：大模型微调的常见方法

微调是指调整大型语言模型（LLM）的参数以适应特定任务的过程。这是通过在与任务相关的数据集上训练模型来完成的。所需的微调量取决于任务的复杂性和数据集的大小。在深度学习中，微调是一种重要的技术，用于改进预训练模型的性能。除了微调ChatGPT之外，还有许多其他预训练模型可以进行微调。大模型微调如上文所述有很多方法，并且对于每种方法都会有不同的微调流程、方式、准备工作和周期。

2024-06-19 17:44:45 1091

原创大模型LLM-微调经验分享&总结

大型语言模型横行，之前非常焦虑，现在全面拥抱。目前也有很多开源项目进行大模型微调等，笔者也做了一阵子大模型了，特此来介绍一下ChatGLM-6B模型微调经验，并汇总了一下目前开源项目&数据。笔者与很多人微调结论不同，本人在采用单指令上进行模型微调，发现模型微调之后，

2024-06-19 17:42:18 1061

原创【大模型微调】一文掌握7种大模型微调的方法

本篇文章深入分析了大型模型微调的基本理念和多样化技术，细致介绍了LoRA、适配器调整(Adapter Tuning)、前缀调整(Prefix Tuning)等多个微调方法。详细讨论了每一种策略的基本原则、主要优点以及适宜应用场景，使得读者可以依据特定的应用要求和计算资源限制，挑选最适合的微调方案。大型语言模型(LLM)的训练过程通常分为两大阶段：阶段一：预训练阶段在这个阶段，大型模型会在大规模的无标签数据集上接受训练，目标是使模型掌握语言的统计特征和基础知识。

2024-06-19 17:40:12 1176

原创大模型所谓的参数是什么？大模型为什么需要训练？大模型训练到底干了什么？

大模型的本质是机器学习，机器学习的本质就是一种数学模型。我们经常能听到这样的说法，某某大模型有多少参数，某某大模型参数量又提升了，这里所说的参数到底是什么？我们知道大模型是训练出来的，那么哪些训练数据都跑哪去了，大模型训练的过程中都干了什么？为什么大模型需要训练？‍‍01大模型的参数到底是什么？我们知道大模型的发展从刚开始的几百个参数，到现在的上千亿个参数，比如GPT-3就有一千七百多亿个参数。

2024-06-19 17:37:31 1178

原创深度分析RAG VS 微调如何选择

随着人工智能技术的飞速发展，越来越多的企业和个人开始关注如何利用AI技术提升业务效率。在众多AI模型中，RAG（Retrieval-Augmented Generation）和微调（Fine-tuning）成为了两种备受关注的模型优化方法。本文通过场景及案例分析这两种方法，帮助你更好地选择适合自己需求的AI模型。首先我们要弄清楚RAG和微调到底有什么区别呢？首先看RAG，实际上它并没有去改变我们所使用的大模型，而是在大模型的基础上加了外部的一些额外的知识，然后用这个模块去回答用户的问题；

2024-06-19 17:35:45 910

原创搞懂大模型中的提示工程、RAG和微调

我们都知道大模型非常火，很多人想必也都用过不少AI产品，比如百度的文心一言、字节的豆包、阿里巴巴的通义千问、腾讯的元宝、月之暗面的Kimi智能助手等等。那么对于提示工程、RAG（检索增强）和微调，在工程当中，我们应该怎么去选择呢？我们先要搞清楚，大模型是怎么训练出来的？首先需要有海量的数据，然后通过训练，来构造一个大模型。训练好的大模型，具备了很多的能力，因为在我们训练的过程中，使用到的数据是非常多样化的，包括各个行业、各个领域的数据。

2024-06-19 17:33:52 1642

原创大模型微调与RAG的选型建议

这里我分几个方面来进行对比吧。首先是知识层面，这个应该是RAG使用者最关心的。RAG对知识的更新时间和经济成本更低。不需要训练，只需要更新数据库即可。RAG对知识的掌控力会更强，相比微调更不用担心学不到或者是遗忘的问题。但是如果模型强缺乏某个领域的知识，足量数据的微调才能让模型对该领域有基本的概念，如果不具备领域知识基础，RAG仍旧无法正确回答。然后是具体任务效果的问题。RAG相比微调能更容易获得更好的效果，突出的是稳定性、可解释性。

2024-06-19 17:32:20 1111

原创大模型Prompt系列高效微调

国内外目前有很多大语言模型，如GPT3、GPT4、ChatGLM、Llama、Baichuan、PanGu等，在自然语言处理任务中各有千秋。在面对具体的任务时，我们需要对大语言模型在已有的基础上进行，通过相应的监督语料进行训练、微调等，以获得适应下游任务的模型。自从GPT、EMLO、BERT的相继提出，以Pre-training + Fine-tuning 的模式在诸多自然语言处理(NLP)任务中被广泛使用。

2024-06-19 17:28:18 1158

原创大模型微调技术

• 第一，我们不能预先指定矩阵的秩，需要动态更新增量矩阵的R，因为权重矩阵的重要性在不同模块和层之间存在显著差异。• 第二，需要找到更加重要的矩阵，分配更多的参数，裁剪不重要的矩阵。找到重要的矩阵，可以提升模型效果；而裁剪不重要的矩阵，可以降低参数计算量，降低模型效果差的风险。为了弥补这一差距，作者提出了AdaLoRA，它根据权重矩阵的重要性得分，在权重矩阵之间自适应地分配参数预算。

2024-06-19 17:25:04 1239

原创关于大语言模型的最新综述

24年2月来自Snap等公司的论文“Large Language Models: A Survey”。自 2022 年 11 月 ChatGPT 发布以来，大语言模型 (LLM) 因其在各种自然语言任务中的出色表现而备受关注。正如规模化定律所预测的那样，LLM 的通用语言理解和生成能力是通过在大量文本数据上训练数十亿个模型参数获得的 [1]，[2]。LLM 的研究领域虽然刚刚出现，但正在以多种不同的方式迅速发展。

2024-06-18 11:56:41 904

原创 LLM基础之大模型常见的微调方法：ptuning v2、lora、qlora 以及微调套路

大模型技术飞速发展，像Rag、Agent以及Moe等，1月份抽空看了蛮多大模型的博客和论文，感觉知识点太多了并且更新速度也贼快，后续就慢慢进行总结输出。这篇文章主要主要围绕ptuning v2、lora、qlora以及全量微调等方法进行介绍，末尾也会分享自己参加的相关大模型比赛的微调心得总结以及一些学习的参考。大模型的训练主要包括预训练阶段、指令微调阶段以及强化学习阶段。不过最近刷到过论文或者博客文章提到，通过高质量的有监督微调数据训练大模型，即使不进行强化学习阶段，也能模仿人类进行输出。

2024-06-18 11:46:41 1227

原创大模型微调新范式：当LoRA遇见MoE

▲ 左侧：原始版本的 LoRA，权重是稠密的，每个样本都会激活所有参数；右侧：与混合专家（MoE）框架结合的 LoRA，每一层插入多个并行的 LoRA 权重（即 MoE 中的多个专家模型），路由模块（Router）输出每个专家的激活概率，以决定激活哪些 LoRA 模块。由于大模型全量微调时的显存占用过大，LoRA、Adapter、IA 这些（Parameter-Efficient Tuning，简称）方法便成为了资源有限的机构和研究者微调大模型的标配。

2024-06-18 11:44:41 1302

原创大模型微调的几种方式

大模型微调有全量微调FFT，和部分微调PEFT。那么从训练数据的来源，以及训练的方法的角度，大模型微调有以下几个技术路线。

2024-06-18 11:40:28 487

原创大模型LLM微调新方法，不需要修改权重

有一种新的有前景的方法可以在不修改 LLM 权重的情况下对其进行微调，称为代理调优（Liu 等人arxiv.org/abs/2401.08565 ）。它是如何工作的？这是一种简单的解码时方法，您可以在其中修改目标 LLM 的 logits。特别是，您可以计算较小的基础模型和微调模型之间的 logits 差异，然后将该差异应用于目标模型的 logits。更具体地说，假设目标是改进大目标模型 (M1)。主要思想是采用两个小模型：- 小型基础型号（M2）- 微调的基础模型 (M3)

2024-06-18 11:39:20 379

原创大语言模型微调的方法

大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。将预训练模型的所有层都参与微调，以适应新的任务。

2024-06-18 11:37:55 705

空空如也

空空如也