自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 大预言模型LoRA综述

低秩自适应(LoRA)是一种利用可插拔的低秩矩阵更新密集神经网络的方法,是参数效率最高的微调方法之一。此外,它在跨任务和隐私保护方面也有着显著的优势。因此,LoRA近来备受关注,相关文献数量成指数级增长。下游适应改进变量,可提高LoRA在下游任务中的性能;跨任务泛化方法,混合多个LoRA插件以实现跨任务泛化;效率改进方法,提高LoRA计算效率的方法;在联合学习中使用LoRA的数据隐私保护方法;应用。此外,这篇论文还讨论了这个领域的未来发展方向。

2024-09-23 16:42:48 1337

原创 Prompt-Tuning原始论文解读

Prompt Tuning是一种简单有效的机制,主要用于学习“软提示”,使冻结语言模型能够执行特定的下游任务。与GPT-3使用的离散文本提示不同,软提示是通过反向传播来学习的,并且可以进行调整,以合并来自任意数量标记示例的信号。这是一种端到端的学习,对应的效果比GPT-3中采用的少样本学习方法有好很多。

2024-09-19 16:41:26 1176

原创 LoRA:大模型的低秩自适应

自然语言处理的一个重要范例是在一般领域数据上进行大规模预训练,然后适应特定任务或领域。而随着预训练模型越来越大,重新训练所有模型参数的全面微调就变得不可行了。作者提出了低秩自适应技术,可以冻结预训练模型的权重,并将可训练的秩分解矩阵注入Transformer的每一层,从而大大减少下游任务的可训练参数量。与使用Adam进行微调的GPT-3 175B相比,LoRA可将可训练参数量降低10,000倍,GPU内存需求减少3倍。LoRA在RoBERTaDeBERTaGPT-2和GPT-3。

2024-09-12 15:35:01 763

原创 理解大语言模型智能体的规划能力:综述

随着大语言模型(LLM)显示出显著的智能性,利用LLM作为自主代理的规划模块的进展引起了更多的关注。这篇论文系统性的介绍了基于LLM的代理规划,涵盖了近期提高规划能力的工作。对每个方向进行了全面分析,并讨论了该研究领域面临的进一步挑战。

2024-09-06 16:57:27 1246

原创 大模型的检索增强生成--综述

大模型虽然表现出了非常强大的能力,但也遇到了如幻觉、知识过时及推理过程不透明以及无法追踪等问题。而检索增强生成则可以通过整合来自外部知识库的知识从而有效的解决上述问题,并且可以提高生成的准确性和可信度,特别是对于知识密集型任务,能够允许持续的知识更新和特定领域信息的集成。RAG能够将大模型的内在知识与外部数据库的庞大的、动态的存储库结合起来,从而能够有效的解决上面的问题。

2024-09-04 15:01:51 1295

原创 LLaMA3技术报告解读

语言模型预训练。将一个大型多语言文本语料库转换为离散的标记,然后在由此产生的数据上预训练一个大型语言模型,以执行下一个标记的预测。在训练过程中使用了8K标记的上下文窗口,在15.6Ttoken上预训练了一个拥有405B参数的模型。在标准预训练之后,还会继续进行预训练,将支持的上下文窗口增加到128k tokens。语言模型后训练。预训练后的语言模型对语言有丰富的理解,但还不能按照期望的方式来执行指令或行为。在这一阶段将分几轮根据人类的反馈微调模型,每一轮都包括在指令微调数据基础上进行监督微调(SFT)。

2024-08-07 15:49:31 1155

原创 ChatGLM系列模型

ChatGLM系列算法是清华大学研发的一个开源的、支持中英双语的对话语言模型,基于General Language Model(GLM)架构。采用了和ChatGPT相似的技术,针对中文问答和对话进行了优化。因此在了解对应算法之前需要对GLM架构进行相应的了解。GLM是一个基于自回归的空白填充目标的通用预训练框架。将NLU任务转化为包含任务描述的完形填空问题,可以通过自回归生成的方式来进行回答。所谓自回归空白填充是指在输入文本中随机挖去一些连续的文本片段,然后在模型训练的时候按照任意顺序来重构这些片段。

2024-07-31 16:10:13 2567

原创 常见预训练语言模型类别及代表模型

自然语言处理(Natural Language Process,NLP)的发展目前大致经历了统计语言模型阶段、深度学习阶段、预训练语言模型阶段和大语言模型阶段。每个不同的阶段都有比较经典的算法模型,想要了解每个阶段具体的相关内容,可以参照博客。本篇主要是对其中第三个阶段,即预训练语言模型阶段常见的模型进行分类。

2024-07-25 17:15:45 1261

原创 NLP的发展阶段

自然语言处理(Natural Language Process,简称NLP)是计算机科学与自然语言交互的一门学科,主要目的是使计算机能够理解自然语言处理以便能够完成相应的任务。目前在NLP领域内通常都是通过语言模型来解决相应的问题,而语言模型是对人类语言的内在规律进行建模,从而能够准确的预测未来(或缺失)或词元(token)的概率。根据所采用技术方法的不同,目前语言模型相关的研究工作可以分为以下四个不同的发展阶段。

2024-07-04 11:07:55 749

原创 大模型常用激活函数

在深度学习相关的算法当中如果没有激活函数,就算模型结构再复杂都无法对非线性的数据进行相应的处理。而激活函数的加入则可以非常有效的解决这个问题。如今随着大模型时代的到来,不同的模型当中也采用了不同的激活函数,本文将对常见开源大模型中经常使用的激活函数进行简单的总结。

2024-06-14 13:40:28 2176

原创 Transformer中的位置编码

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言Transformer模型在进行数据处理时与传统的RNN系列算法不同,不再按照时间步进行相应特征的抽取,而是采用Attention机制。由于Attention机制在处理数据时无法捕捉到信息的输入顺序,为了能够了解对应的输入顺序,在Transformer当中通常需要加入位置编码。常见的位置编码可以分为绝对位置编码、相对位置编码及其他位置编码。一、绝对位置编码二、相对位置编码三、其他位置编码四、长度外推问题总结前言Trans

2024-06-06 15:30:28 2059 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除