自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 收藏
  • 关注

原创 大模型LLM量化 , 5个基础技术知识

写这篇文章原因下载 qwen 110B 模型发现不同量化占的内存差异很大,就想搞明白到底量化会着重影响哪方面的推理能力Qwen1.5-110B-Chat的显存全精度部署(32 精度)占用220GB;8bit量化部署Qwen1.5-110B需要113GB显存;4bit量化部署Qwen1.5-110B,需要62GB显存大型语言模型(LLMs)的量化是减小其大小和内存使用的关键策略,同时努力保持其质量。这种压缩技术对于在计算能力有限的设备上部署高级模型至关重要2 种量化方式。

2024-07-08 22:21:11 705

原创 整车智能大模型应用研究探析

综上所述,大模型在汽车的应用具有跨时代的意义,也是通过海量数据的训练使得功能形成了真正意义上具有综合分析能力的智能体。无论是智能驾驶还是智能交互,其都能通过擅长的多模态感知、综合分析、科学决策实现接近人脑思考方式的功能执行链,满足多变的场景的无数的需求。

2024-07-08 22:20:31 1052

原创 大语言模型的训练技巧

批量大小指的是在每个训练步骤(epoch)中同时处理的样本数量。在大语言模型中,由于模型规模庞大,批量大小通常会较大。

2024-07-03 17:46:14 765

原创 新手入门:大语言模型训练指南

在这个信息爆炸的时代,人工智能技术正以前所未有的速度渗透到我们生活的方方面面。从智能手机上的语音助手到自动驾驶汽车,AI的应用无处不在。而在这些令人惊叹的技术背后,大语言模型(LLM)扮演着至关重要的角色。它们不仅能够理解和生成自然语言,还能在多种场景下提供智能决策支持。然而,对于许多对AI感兴趣的新手来说,大语言模型的训练和应用似乎是一件高不可攀的事情。复杂的技术术语、晦涩的理论知识,以及高昂的硬件要求,往往让人望而却步。但其实,只要掌握正确的方法和工具,每个人都能成为AI领域的探索者和实践者。本文将带你

2024-07-03 17:45:36 935

原创 通俗解读大模型微调(Fine Tuning)

开始之前,为了方便大家理解,我们先对大模型做一个直观的抽象。输入序列 X = [x1, x2, …, xm], 输出序列Y = [y1, y2, …, yn],X和Y之间的关系是:Y = WX。我们所说的“大模型”这个词:“大”是指用于训练模型的参数非常多,多达千亿、万亿;而“模型”指的就是上述公式中的矩阵W。在这里,矩阵W就是通过机器学习,得出的用来将X序列,转换成Y序列的权重参数组成的矩阵。这里为了方便理解,做了大量的简化。在实际的模型中,会有多个用于不同目的的权重参数矩阵,也还有一些其它参数。

2024-07-03 17:42:29 1046

原创 大模型技术在辅助学习中的应用

大模型技术在辅助学习中的应用场景非常广泛,以下是一些典型示例。大模型技术在辅助学习中具有广阔的应用前景,可以为学生提供更加个性化、智能化和高效的学习体验。随着大模型技术的不断发展,我们可以期待在未来看到更多创新应用。大模型可以根据每个学生的学习特点和需求,生成个性化的学习计划和学习内容。例如,可以根据学生的知识薄弱点,生成针对性的练习题;或者根据学生的兴趣爱好,推荐相关的学习资源。大模型可以扮演智能辅导员的角色,实时解答学生的疑问,并提供学习指导。例如,当学生遇到难题时,大模型可以提供详细的解题步骤和讲解。

2024-07-03 17:41:55 541

原创 大模型应用的10种架构模式

在塑造新领域的过程中,我们往往依赖于一些经过实践验证的策略、方法和模式。这种观念对于软件工程领域的专业人士来说,已经司空见惯,设计模式已成为程序员们的重要技能。然而,当我们转向大模型应用和人工智能领域,情况可能会有所不同。面对新兴技术,例如生成式AI,我们尚缺乏成熟的设计模式来支撑这些解决方案。作为一位老码农,我在这里整理总结了一些针对大模型应用的设计方法和架构模式,试图应对和解决大模型应用实现中的一些挑战,如成本问题、延迟问题以及生成的不准确性等。

2024-07-03 17:41:24 647

原创 大模型微调方案设计和能力整合

本文将介绍大模型应用开发相关的知识地图。总述核心要素应用案例在构建大型模型应用时,技术架构的规划至关重要。整体架构可被划分为四个层次:基础设施层、模型工具层、模型引擎层及大模型应用层。(1)基础设施层:涵盖了数据服务、云平台及开源社区等多个方面,为应用开发提供坚实的基础。数据服务:大规模模型对数据的要求极高,厂商可通过自主标注数据或采购外部数据的方式满足需求。

2024-07-03 17:40:31 290

原创 如何训练一个大模型

本篇我们根据Andrej Karpathy(安德烈·卡帕西)的专题演讲《State of GPT》来介绍GPT如何从“初始模型”(base model)一直训练成ChatGPT这样的“助手模型”(assistant model)。Andrej Karpathy是OpenAI的创始人之一,也是GPT大模型训练这个领域最有话语权的人之一,建议大家去看一下大佬的演讲视频(https://www.bilibili.com/video/BV1ts4y1T7UH)。

2024-06-29 23:41:13 845

原创 大模型:帮助企业基于领域大模型构建未来应用

大模型,通常指的是具有巨大参数规模和复杂网络结构的深度学习模型。这类模型通过海量的数据进行训练,能够学习到丰富的特征表示和复杂的模式关系,从而在多个任务上展现出卓越的性能。大模型的主要优势在于其强大的表达能力和泛化能力,能够处理复杂多变的数据和任务。近年来,随着计算能力的提升和数据资源的丰富,大模型技术在自然语言处理、计算机视觉、语音识别等领域取得了显著的进展。

2024-06-29 23:40:37 886

原创 LLM大模型技术实战6:一文总结大模型微调方法

大模型会成为AI时代的一项基础设施。作为像水、电一样的基础设施,预训练大模型这样的艰巨任务,只会有少数技术实力强、财力雄厚的公司去做。绝大多数人,是水、电的应用者。对这部分人来说,掌握如何用好大模型的技术,更加重要。用好大模型的第一个层次,是掌握用好大模型的第二个层次,是,这也是今天这篇文章的主题。为什么要对大模型进行微调通常,要对大模型进行微调,有以下一些原因:第一个原因是,因为大模型的参数量非常大,,每家公司都去从头训练一个自己的大模型,这个事情的性价比非常低;第二个原因是,。

2024-06-29 23:33:02 1064

原创 大模型LLM,微调经验分享全面总结

大型语言模型横行,之前非常焦虑,现在全面拥抱。目前也有很多开源项目进行大模型微调等,笔者也做了一阵子大模型了,特此来介绍一下ChatGLM-6B模型微调经验,并汇总了一下目前开源项目&数据。笔者与很多人微调结论不同,本人在采用单指令上进行模型微调,发现模型微调之后,

2024-06-29 23:32:27 1085

原创 AI赛道,普通人翻盘的黄金机遇!!

为什么说AI赛道是普通人翻盘的黄金机遇呢?自从ChatGPT火爆全球以来,AI技术已经逐渐渗透到我们生活的方方面面,从智能家居到自动驾驶,从虚拟助手到医疗诊断,它正在以前所未有的速度改变着世界。AI技术的普及,首先带来的是就业市场的巨大变革。那些掌握AI技术并具有创新意识的普通人往往可以通过创办自己的公司或加入创新型企业实现个人价值,并在市场竞争中脱颖而出。同时,在传统行业中,掌握一定程度AI知识的普通员工也很有可能因此受益,在工作中表现出色并获得更好的职业发展机会。

2024-06-25 16:48:17 844

原创 大模型在持续学习中的最新进展:综述

社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。转载自 | 专知近年来,基础语言模型(LMs)在自然语言处理(NLP)和计算机视觉(CV)领域取得了显著成就。与传统神经网络模型不同,基础语言模型通过在大量无监督数据集上进行预训练,获得了丰富的常识知识,并且具有强大的迁移学习能力。然而,由于灾难性遗忘,基础语言模型仍然无法模拟人类的持续学习能力。

2024-06-25 16:47:28 1141

原创 干货,人民大学《大语言模型》PDF全文分享

前段时间,人民大学初版了《大语言模型》一书,涵盖了模型架构、模型预训练、部署使用、智能体等内容。整体而言,《大语言模型》全面介绍了大语言模型的技术背景、发展过程、关键技术、资源、训练方法、微调技术、人类对齐、部署应用以及未来趋势,为读者提供了一个关于大语言模型技术的深入视角。大语言模型的发展历程:文章首先介绍了大语言模型的背景,包括ChatGPT的上线、大语言模型技术的重要性以及其发展历程,从统计语言模型到神经网络语言模型,再到预训练语言模型。

2024-06-25 16:42:39 631

原创 大模型微调方法总结

自然语言处理目前存在一个重要范式:一般领域数据的大规模预训练,对特定任务或领域的适应(finetune)。但是随着预训练语言模型越来越大,这个范式存在以下问题:● 当我们 finetune 大模型时,由于训练成本太高,不太可能重新训练所有模型参数● 以前的方法(论文发表于 2021 年)都或多或少有其它性能问题,如 adapter 增加了模型层数,引入了额外的推理延迟;prefix-tuning 比较难训练,效果不如直接 finetune。

2024-06-19 17:46:39 725

原创 大模型炼丹术:大模型微调的常见方法

微调是指调整大型语言模型(LLM)的参数以适应特定任务的过程。这是通过在与任务相关的数据集上训练模型来完成的。所需的微调量取决于任务的复杂性和数据集的大小。在深度学习中,微调是一种重要的技术,用于改进预训练模型的性能。除了微调ChatGPT之外,还有许多其他预训练模型可以进行微调。大模型微调如上文所述有很多方法,并且对于每种方法都会有不同的微调流程、方式、准备工作和周期。

2024-06-19 17:44:45 899

原创 大模型LLM-微调经验分享&总结

大型语言模型横行,之前非常焦虑,现在全面拥抱。目前也有很多开源项目进行大模型微调等,笔者也做了一阵子大模型了,特此来介绍一下ChatGLM-6B模型微调经验,并汇总了一下目前开源项目&数据。笔者与很多人微调结论不同,本人在采用单指令上进行模型微调,发现模型微调之后,

2024-06-19 17:42:18 940

原创 【大模型微调】一文掌握7种大模型微调的方法

本篇文章深入分析了大型模型微调的基本理念和多样化技术,细致介绍了LoRA、适配器调整(Adapter Tuning)、前缀调整(Prefix Tuning)等多个微调方法。详细讨论了每一种策略的基本原则、主要优点以及适宜应用场景,使得读者可以依据特定的应用要求和计算资源限制,挑选最适合的微调方案。大型语言模型(LLM)的训练过程通常分为两大阶段:阶段一:预训练阶段在这个阶段,大型模型会在大规模的无标签数据集上接受训练,目标是使模型掌握语言的统计特征和基础知识。

2024-06-19 17:40:12 848

原创 大模型所谓的参数是什么?大模型为什么需要训练?大模型训练到底干了什么?

大模型的本质是机器学习,机器学习的本质就是一种数学模型。我们经常能听到这样的说法,某某大模型有多少参数,某某大模型参数量又提升了,这里所说的参数到底是什么?我们知道大模型是训练出来的,那么哪些训练数据都跑哪去了,大模型训练的过程中都干了什么?为什么大模型需要训练?‍‍01大模型的参数到底是什么?我们知道大模型的发展从刚开始的几百个参数,到现在的上千亿个参数,比如GPT-3就有一千七百多亿个参数。

2024-06-19 17:37:31 935

原创 深度分析RAG VS 微调如何选择

随着人工智能技术的飞速发展,越来越多的企业和个人开始关注如何利用AI技术提升业务效率。在众多AI模型中,RAG(Retrieval-Augmented Generation)和微调(Fine-tuning)成为了两种备受关注的模型优化方法。本文通过场景及案例分析这两种方法,帮助你更好地选择适合自己需求的AI模型。首先我们要弄清楚RAG和微调到底有什么区别呢?首先看RAG,实际上它并没有去改变我们所使用的大模型,而是在大模型的基础上加了外部的一些额外的知识,然后用这个模块去回答用户的问题;

2024-06-19 17:35:45 705

原创 搞懂大模型中的提示工程、RAG和微调

我们都知道大模型非常火,很多人想必也都用过不少AI产品,比如百度的文心一言、字节的豆包、阿里巴巴的通义千问、腾讯的元宝、月之暗面的Kimi智能助手等等。那么对于提示工程、RAG(检索增强)和微调,在工程当中,我们应该怎么去选择呢?我们先要搞清楚,大模型是怎么训练出来的?首先需要有海量的数据,然后通过训练,来构造一个大模型。训练好的大模型,具备了很多的能力,因为在我们训练的过程中,使用到的数据是非常多样化的,包括各个行业、各个领域的数据。

2024-06-19 17:33:52 1039

原创 大模型微调与RAG的选型建议

这里我分几个方面来进行对比吧。首先是知识层面,这个应该是RAG使用者最关心的。RAG对知识的更新时间和经济成本更低。不需要训练,只需要更新数据库即可。RAG对知识的掌控力会更强,相比微调更不用担心学不到或者是遗忘的问题。但是如果模型强缺乏某个领域的知识,足量数据的微调才能让模型对该领域有基本的概念,如果不具备领域知识基础,RAG仍旧无法正确回答。然后是具体任务效果的问题。RAG相比微调能更容易获得更好的效果,突出的是稳定性、可解释性。

2024-06-19 17:32:20 639

原创 大模型Prompt系列高效微调

国内外目前有很多大语言模型,如GPT3、GPT4、ChatGLM、Llama、Baichuan、PanGu等,在自然语言处理任务中各有千秋。在面对具体的任务时,我们需要对大语言模型在已有的基础上进行,通过相应的监督语料进行训练、微调等,以获得适应下游任务的模型。自从GPT、EMLO、BERT的相继提出,以Pre-training + Fine-tuning 的模式在诸多自然语言处理(NLP)任务中被广泛使用。

2024-06-19 17:28:18 890

原创 大模型微调技术

• 第一,我们不能预先指定矩阵的秩,需要动态更新增量矩阵的R,因为权重矩阵的重要性在不同模块和层之间存在显著差异。• 第二,需要找到更加重要的矩阵,分配更多的参数,裁剪不重要的矩阵。找到重要的矩阵,可以提升模型效果;而裁剪不重要的矩阵,可以降低参数计算量,降低模型效果差的风险。为了弥补这一差距,作者提出了AdaLoRA,它根据权重矩阵的重要性得分,在权重矩阵之间自适应地分配参数预算。

2024-06-19 17:25:04 927

原创 大语言模型高效推理技术

24年6月来自无问芯穹、清华大学和上海交大的论文“A Survey on Efficient Inference for Large Language Models”。大语言模型 (LLM) 因其在各种任务中的出色表现而受到广泛关注。然而,LLM 推理对计算和内存的大量要求对在资源受限的情况下的部署带来了挑战。如何提高 LLM 推理效率?本文对现有的高效 LLM 推理进行了全面调查。首先分析 LLM 推理效率低下的主要原因,即模型规模大、二次复杂度的注意操作和自回归解码方法。

2024-06-18 11:58:35 944

原创 关于大语言模型的最新综述

24年2月来自Snap等公司的论文“Large Language Models: A Survey”。自 2022 年 11 月 ChatGPT 发布以来,大语言模型 (LLM) 因其在各种自然语言任务中的出色表现而备受关注。正如规模化定律所预测的那样,LLM 的通用语言理解和生成能力是通过在大量文本数据上训练数十亿个模型参数获得的 [1],[2]。LLM 的研究领域虽然刚刚出现,但正在以多种不同的方式迅速发展。

2024-06-18 11:56:41 702

原创 LLM基础之大模型常见的微调方法:ptuning v2、lora、qlora 以及微调套路

大模型技术飞速发展,像Rag、Agent以及Moe等,1月份抽空看了蛮多大模型的博客和论文,感觉知识点太多了并且更新速度也贼快,后续就慢慢进行总结输出。这篇文章主要主要围绕ptuning v2、lora、qlora以及全量微调等方法进行介绍,末尾也会分享自己参加的相关大模型比赛的微调心得总结以及一些学习的参考。大模型的训练主要包括预训练阶段、指令微调阶段以及强化学习阶段。不过最近刷到过论文或者博客文章提到,通过高质量的有监督微调数据训练大模型,即使不进行强化学习阶段,也能模仿人类进行输出。

2024-06-18 11:46:41 739

原创 大模型微调新范式:当LoRA遇见MoE

▲ 左侧:原始版本的 LoRA,权重是稠密的,每个样本都会激活所有参数;右侧:与混合专家(MoE)框架结合的 LoRA,每一层插入多个并行的 LoRA 权重(即 MoE 中的多个专家模型),路由模块(Router)输出每个专家的激活概率,以决定激活哪些 LoRA 模块。由于大模型全量微调时的显存占用过大,LoRA、Adapter、IA 这些(Parameter-Efficient Tuning,简称)方法便成为了资源有限的机构和研究者微调大模型的标配。

2024-06-18 11:44:41 803

原创 大模型微调的几种方式

大模型微调有全量微调FFT,和部分微调PEFT。那么从训练数据的来源,以及训练的方法的角度,大模型微调有以下几个技术路线。

2024-06-18 11:40:28 287

原创 大模型LLM微调新方法,不需要修改权重

有一种新的有前景的方法可以在不修改 LLM 权重的情况下对其进行微调,称为代理调优(Liu 等人arxiv.org/abs/2401.08565 )。它是如何工作的?这是一种简单的解码时方法,您可以在其中修改目标 LLM 的 logits。特别是,您可以计算较小的基础模型和微调模型之间的 logits 差异,然后将该差异应用于目标模型的 logits。更具体地说,假设目标是改进大目标模型 (M1)。主要思想是采用两个小模型:- 小型基础型号(M2)- 微调的基础模型 (M3)

2024-06-18 11:39:20 278

原创 大语言模型微调的方法

大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。将预训练模型的所有层都参与微调,以适应新的任务。

2024-06-18 11:37:55 330

原创 大模型LLM微调技术方法paper汇总!

随着AI技术的发展,大型预训练模型在图像识别、自然语言处理等领域表现出色,不过为了使其适应特定的任务和数据集,这些模型通常需要针对特定应用进行微调。今天就特意整理了12篇大模型LLM微调技术方法paper分享给大家,提供了对于LLM在不同场景下进行高效微调的深入分析、实践经验和技术突破,大家可以学习一下!

2024-06-18 11:36:34 958

原创 大模型微调爆火!32种前沿微调方法全面汇总

技术在短时间内迅速发展,迎来了爆火,各种微调包括LoRA的多个版本迭代、增量学习、蒸馏技术和开源模型的理解等技术层出不穷。这些技术能够向模型输入更多信息,优化特定功能,使其适应特定任务或领域,是大模型er必须掌握的重要技能。为了让大家跟上领域前沿,我整理了。

2024-06-18 11:32:46 676

原创 十分钟学会微调大语言模型

本文介绍一种大语言模型微调的方法,使用的工具是我最近在用的 Text Generation WebUI,它提供了一个训练LoRA的功能。LoRA之于大语言模型,就像设计模式中的装饰器模式:装饰器模式允许向一个对象添加新的功能,而不改变其结构。具体来说,装饰器模式会创建一个装饰类,用来包装原有的类,并在保持原有类方法签名完整性的前提下,提供额外的功能。LoRA,全称为Low-Rank Adaptation,是一种微调大型语言模型的技术。

2024-06-18 11:29:38 567

原创 总结!大模型微调(Tuning)的常见方法

大模型微调如上文所述有很多方法,并且对于每种方法都会有不同的微调流程、方式、准备工作和周期。

2024-06-18 11:25:06 1004

原创 人大出版了最适合中国人的大模型入门中文教程手册!!!

大家还记得这篇在2023年3月发表的关于大语言模型的综述文章吗?当时一发表就在全网受到了很好的反响,毕竟这篇文章从发表到现在才一年就已经更新到了第13个版本,包含了83页的正文内容,并且收录了900多篇参考文献,非常系统全面!但就在前不久,中国人民大学又对这篇综述的内容进行了大幅度的更新与重组后,正式发表了大语言模型的中文版入门书。这本书在2023年12月就已经开始进行编写,它与英文综述的定位不同。

2024-06-17 21:41:00 857

原创 本地化模型部署与应用

无限接近docker的使用方法。带来方便的模型管理方式。Ollama 支持的模型列表 https://ollama.com/library不只是当前先进的语言模型,另外支持向量模型。

2024-06-17 21:38:40 1108

原创 一键部署本地AI大模型

Ollama是一个开源项目,致力于简化大型语言模型(LLM)的本地部署过程。它允许用户在自己的硬件上运行和测试最新的语言模型,无需依赖云服务。Ollama提供了一个类似于OpenAI的API接口,使得开发者可以轻松地在自己的应用程序中集成大型语言模型。此外,Ollama WebUI为用户提供了一个友好的界面,用于管理和与模型进行交互。

2024-06-17 21:36:13 676

原创 如何在本地部署使用llama3?

最近这几天,许多网友都在各大平台上分享如何使用llama3的方法。这个开源大模型几天前刚刚才由Meta发布。本次发布Metat共提供了两个版本的Llama 3 ,8B 版本适合在消费级 GPU 上高效部署和开发;70B 版本则专为大规模 AI 应用设计。每个版本都包括基础和指令调优两种形式。所有版本均可在各种消费级硬件上运行,并具有 8000 Token 的上下文长度。下面介绍llama3的几种部署使用方式!首先是第一种部署llama3的方法,您可以直接采用在。

2024-06-17 21:31:11 1001

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除