大模型
文章平均质量分 90
星如雨グッ!(๑•̀ㅂ•́)و✧
这个作者很懒,什么都没留下…
展开
-
LLM Prompt
1、2、GitHub - PlexPt/awesome-chatgpt-prompts-zh: ChatGPT 中文调教指南。各种场景使用指南。学习怎么让它听你的话。请你充当一名论文编辑专家,在论文评审的角度去修改论文摘要部分,使其更加流畅,优美。能让读者快速获得文章的要点或精髓,让文章引人入胜;能让读者了解全文中的重要信息、分析和论点;帮助读者记住论文的要点字数限制在300字以下请你在摘要中明确指出您的模型和方法的创新点,强调您的贡献。原创 2024-09-17 16:34:53 · 3075 阅读 · 0 评论 -
Vector | Graph:蚂蚁首个开源Graph RAG框架设计解读
RAG的目标是通过知识库增强内容生成的质量,通常做法是将检索出来的文档作为提示词的上下文,一并提供给大模型让其生成更可靠的答案。更进一步地,RAG的整体链路还可以与提示词工程(Prompt Engineering)、模型微调(Fine Tuning)、知识图谱(Knowledge Graph)等技术结合,构成更广义的RAG问答链路。增强训练REALM引入了知识检索器增强大模型预训练,以改进大模型的问答质量和可解释性。增强微调RA-DIT实现了对大模型和检索器的双指令微调,RAFT。原创 2024-09-17 15:51:07 · 1082 阅读 · 0 评论 -
大模型参数高效微调技术原理综述(八)-MAM Adapter、UniPELT
通过最终的实验结果,可以看到 MAM Adapter 在仅用了6.7%参数量(相比全量微调)的情况下,在Xsum和MT这两个任务上达到了和全量微调相近的效果,并且该方法大大优于 BitFit 和 Prompt Tuning,并始终优于 LoRA、Adapter 和 Prefix Tuning。基于此,作者分解了当下最先进的参数高效迁移学习方法(Adapter、Prefix Tuning和LoRA)的设计,并提出了一种新方法MAM Adapter,一个在它们之间建立联系的统一框架。插入形式有串联或并联;原创 2024-09-16 20:59:47 · 1125 阅读 · 0 评论 -
大模型参数高效微调技术原理综述(七)-LoRA、AdaLoRA、QLoRA
在下游任务训练时,固定模型的其他参数,只优化新增的两个矩阵的权重参数,将PLM跟新增的通路两部分的结果加起来作为最终的结果(两边通路的输入跟输出维度是一致的),即h=Wx+BAx。在涉及到矩阵相乘的模块,在原始的PLM旁边增加一个新的通路,通过前后两个矩阵A,B相乘,第一个矩阵A负责降维,第二个矩阵B负责升维,中间层维度为r,从而来模拟所谓的本征秩(intrinsic rank)。通过实验也发现,在众多数据集上LoRA在只训练极少量参数的前提下,最终在性能上能和全量微调匹配,甚至在某些任务上优于全量微调。原创 2024-09-16 20:52:13 · 1214 阅读 · 0 评论 -
大模型参数高效微调技术原理综述(六)-Adapter Tuning
如图 2所示, (Neil Houlsby, 2019)给出了Adaptor tuning与传统迁移学习(调整靠近输出的几层)在调整同等数量的参数的情况下,模型性能的差别。在训练过程中,一般只调整图 4中绿色的部分,包括适配器的下投影前馈层、上投影前馈层、非线性层以及Transformer模块中的两个归一层的参数。适配器模块的工作原理是先把输入的d维特征向量通过下投影前馈层(d×r维矩阵)投影为r维向量(r原创 2024-09-16 20:17:54 · 914 阅读 · 0 评论 -
大模型参数高效微调技术原理综述(五)-Prompt Tuning V2
提示微调,只用一个冻结的语言模型来微调连续的提示,大大减少了训练时每个任务的存储和内存使用。然而,在NLU的背景下,先前的工作显示,提示微调对于正常大小的预训练模型来说表现并不理想。我们还发现,现有的提示微调方法不能处理困难的序列标注任务,表明缺乏普遍性。我们提出了一个新的经验发现,适当优化的提示微调可以在广泛的模型规模和NLU任务中普遍有效。它与微调的性能相匹配,而只有0.1%-3%的微调参数。原创 2024-09-16 15:03:10 · 856 阅读 · 0 评论 -
大模型参数高效微调技术原理综述(四)-Prompt Tuning
首先我们看一下论文摘要,快速理解论文的核心内容问题与一样,都是以任务为中心的思路解决问题。以任务为中心:它们都在试图解决FFT针对不同的下游任务都需产生一个新的微调后大模型而导致的成本效率问题。解决方案:论文提出的,也是一种使用Soft Prompt(软提示)进行迁移学习的方法。统一不同下游任务的训练数据格式,并将这些不同下游任务的训练数据汇总成一个乱序的数据集,微调预训练模型,最终获得一个能处理不同下游任务的大模型。实验效果在小参数规模的T5上,略差于FFT性能。在中参数规模的T5上,原创 2024-09-01 21:10:01 · 1064 阅读 · 0 评论 -
大模型参数高效微调技术原理综述(三)-Prefix Tuning
首先我们看一下论文摘要,快速理解论文的核心内容问题:**FFT(全参数微调)**针对不同的下游任务都需要产生一个新的微调后大模型,存在成本效率等诸多工程问题。解决方案:论文提出的,是一种使用Soft Prompt(软提示)进行迁移学习的方法。针对不同下游任务创建不同的Prefix(前缀向量模块),这样不同下游任务只需要在一套预训练大模型上加载不同Prefix小模型即可。实验效果在GPT-2的Table-To-Text(表格生成文本)下游任务中,Prefix。原创 2024-09-01 20:25:08 · 1253 阅读 · 0 评论 -
大模型参数高效微调技术原理综述(一)-背景、参数高效微调简介
因此,近年来研究者们提出了各种各样的参数高效迁移学习方法(Parameter-efficient Transfer Learning),即固定住Pretrain Language model(PLM)的大部分参数,仅调整模型的一小部分参数来达到与全部参数的微调接近的效果(调整的可以是模型自有的参数,也可以是额外加入的一些参数)。参数高效微调是指微调少量或额外的模型参数,固定大部分预训练模型(LLM)参数,从而大大降低了计算和存储成本,同时,也能实现与全量参数微调相当的性能。原创 2024-09-01 20:23:37 · 1238 阅读 · 0 评论 -
大模型参数高效微调技术原理综述(二)-BitFit
Prompt token 的长度在20左右时的表现已经不错(超过20之后,提升Prompt token长度,对模型的性能提升不明显了),同样的,这个gap也会随着模型参数规模的提升而减小(即对于超大规模模型而言,即使 Prompt token 长度很短,对性能也不会有太大的影响)。同时,通过实验结果还可以看出,BitFit微调结果相对全量参数微调而言, 只更新极少量参数的情况下,在多个数据集上都达到了不错的效果,虽不及全量参数微调,但是远超固定全部模型参数的Frozen方式。原创 2024-09-01 20:21:54 · 793 阅读 · 0 评论 -
OpenAI system,user,assistant 角色详解
要使用ChatGPT API与的聊天模型进行交互,您必须在消息对象中提供其中一个角色或。在本指南中,我们将讨论在ChatGPT API请求中使用这些角色的含义。原创 2024-09-01 19:37:47 · 424 阅读 · 0 评论 -
LLM工具总结
从3.6亿篇文献里一键搜索并下载、AI对话、PDF文档对话、文档对话、一键生成思维导图、一键生成PPT、Word文档专业润色、全文翻译,每一个功能都是为了让科研工作变得更加高效和深入。官网地址:https://www.getcoralai.com。进行论文的总结,对话式交流。原创 2024-08-25 19:57:57 · 226 阅读 · 0 评论 -
LLM大模型榜单
创新性地整合品质、速度、费用等多维度评测标准,获AI领军人物吴恩达力荐。2、SuperCLUE评测榜单。1、中文大模型能力评测榜单。原创 2024-08-25 16:30:16 · 256 阅读 · 0 评论 -
GraphRag本地测试
我们需要修改 settings.yaml,你可以直接复制我的如下,切记你本机安装了Ollama并且安装了下边两个模型。然后准备一份数据,放到 /ragtest/input 下,我找了一份中文数据,为了演示,截取了部分文本。安装完成后,建立一个文件夹,存放你的知识数据,目前graphRAG仅支持txt和csv。这个也被解析到了知识图谱中了,还可以吧,我数据比较小,你们可以试试大一点的数据。您可以修改此文件以更改管道的设置。graphRAG的安装还是很简单的,直接pip。复制我的这个替换就可以,注意里边的。原创 2024-08-03 23:36:42 · 1094 阅读 · 0 评论 -
论文解读:Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models
大模型幻觉的三种类型:生成的内容与输入存在冲突:Input-conflicting hallucination, where LLMs generate content that deviates from the source input provided by users;原创 2024-05-05 17:20:20 · 536 阅读 · 0 评论 -
大型语言模型中的幻觉研究综述:原理、分类、挑战和未决问题
大型语言模型(LLM)的出现标志着自然语言处理(NLP)的重大突破,导致文本理解和生成的显着进步。然而,除了这些进步之外,LLM还表现出产生幻觉的关键倾向,导致内容与现实世界的事实或用户输入不一致。这种现象对它们的实际部署提出了重大挑战,并引起了对LLM在现实世界场景中的可靠性的担忧,这吸引了越来越多的关注来检测和减轻这些幻觉。在这项调查中,我们的目标是提供一个全面和深入的概述LLM幻觉领域的最新进展。我们开始与LLM幻觉的创新分类,然后深入研究的因素,有助于幻觉。原创 2024-05-05 17:15:40 · 2376 阅读 · 0 评论 -
百川2模型解读
Baichuan 2是多语言大模型,目前开源了70亿和130亿参数规模的模型。在公开基准如MMLU、CMMLU、GSM8K和HumanEval上的评测,Baichuan 2达到或超过了其他同类开源模型,并在医学和法律等垂直领域表现优异。此外,官方还发布所有预训练模型的checkpoints,帮助研究社区更好地理解Baichuan 2的训练过程。原创 2024-05-05 11:03:09 · 1168 阅读 · 0 评论 -
大模型LLaMA详解
embedding的每维特征都可以看出词的一个特征,比如人可以通过身高,体重,地址,年龄等多个特征表示,对于每个词embedding的每个维度的具体含义,不用人为定义,模型自己去学习。在第二步,A和C作为输入,继续预测,则有10个可能得结果,然后再取其中最大的2个,作为输入,进行第三步,取结果中概率最大的2个,得到2个结果,然后再在2个结果中取最优的一个作为输出。最直接的想法,就是类似查字典,构造一个字典,包含文本中所有出现的词汇,比如中文,可以每个字作为词典的一个元素,构成一个列表;原创 2024-05-04 20:59:09 · 3819 阅读 · 1 评论 -
混合专家模型 (MoE)
随着 Mixtral 8x7B (announcement, model card) 的推出,一种称为混合专家模型 (Mixed Expert Models,简称 MoEs) 的 Transformer 模型在开源人工智能社区引起了广泛关注。在本篇博文中,我们将深入探讨 MoEs 的核心组件、训练方法,以及在推理过程中需要考量的各种因素。混合专家模型 (MoEs):为了实现大模型的高效训练和推理,有的是从模型底层下手,比如直接改变底层模型架构,将原来的Transformer架构改成近期新出的基于状态空间模型原创 2024-05-04 20:17:32 · 1775 阅读 · 0 评论 -
大语言模型从Scaling Laws到MoE
而经常被引用的“18个月”,则是由英特尔首席执行官大卫·豪斯(David House)提出:预计18个月会将芯片的性能提高一倍(即更多的晶体管使其更快),是一种以倍数增长的观测。采用 Expert Choice Routing 的模型,相比于GLaM,在收敛速度方面可以提升2倍, 在 step time 上提速20%,并且完美解决了负载不均衡问题。从搜索空间中,采样一组参数,构建一个 100M/32E 的模型,选择top-K的模型,然后进行scaling,如1B/64E 、8B/64E。原创 2024-05-04 20:12:17 · 1063 阅读 · 0 评论 -
大语言模型中的第一性原理:Scaling laws
尺度定律(Scaling laws)是一种描述系统随着规模的变化而发生的规律性变化的数学表达。这些规律通常表现为一些可测量的特征随着系统大小的增加而呈现出一种固定的比例关系。尺度定律在不同学科领域中都有广泛的应用,包括物理学、生物学、经济学等。有趣的是,OpenAI的研究者在2020年发现,大语言模型也遵循着尺度定律[1]。大语言模型的尺度定律描述的是模型的性能 𝐿 ,模型的参数量大小 𝑁 ,训练模型的数据大小 𝐷 以及训练模型使用的计算量 𝐶 之间的关系。原创 2024-05-04 19:56:07 · 7272 阅读 · 0 评论 -
LLaMA详细解读
LLaMA是一个系列模型,模型参数量从7B到65B。在大部分的任务上,LLaMA-13B强于GPT-3(175B)。LLaMA-65B的性能,可以和最好的LM相媲美,如Chinchilla-70B 和 PaLM-540B。原创 2024-05-04 17:14:59 · 2259 阅读 · 0 评论 -
大模型T5
T5 由谷歌的 Raffel 等人于 2020年7月提出,相关论文为“Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer”。迁移学习技术在NLP领域的兴起,带来了一系列方法、模型和实践的创新。作者们提出了一种将所有的机遇文本的语言任务建模为文本到文本(text-to-text)的统一框架。作者系统研究了预训练目标、模型架构、未标注的数据集、迁移学习方法和其他因素在语言理解任务上的对比效果。原创 2024-05-04 16:42:50 · 1366 阅读 · 0 评论 -
Prompt Engineering
Prompt提示是什么呢?Prompt提示是模型接收以生成响应或完成任务的初始文本输入。我们给AI一组Prompt输入,用于指导模型生成响应以执行任务。这个输入可以是一个问题、一段描述、一组关键词,或任何其他形式的文本,用于引导模型产生特定内容的响应。例如,在chatGPT中,用户通常使用 prompt 来与大语言模型进行交互,请求回答问题、生成文本、完成任务等。模型会根据提供的 prompt 来生成一个与之相关的文本,尽量符合用户的要求。原创 2024-05-04 16:23:52 · 824 阅读 · 0 评论 -
大语言模型Transformer优化
Large Transformer Model Inference OptimizationLarge transformer models are mainstream nowadays, creating SoTA results for a variety of tasks. They are powerful but very expensive to train and use. The extremely high inference cost, in both time and memory,原创 2024-05-04 15:58:40 · 1088 阅读 · 0 评论 -
GPT-3
最近的工作表明,通过对大量文本进行预训练,然后对特定任务进行微调,在许多NLP任务和基准方面取得了实质性进展。虽然这种方法在体系结构中通常是任务无关的,但它仍然需要数千或上万个示例的特定于任务的微调数据集。相比之下,人类通常只能通过几个例子或简单的指令来执行一项新的语言任务,而当前的NLP系统在很大程度上仍难以做到这一点。在这里,论文展示了扩展语言模型可以极大地提高任务无关性、few-shot性能,有时甚至可以与以前最先进的微调方法相媲美。原创 2024-05-04 11:16:46 · 1274 阅读 · 1 评论 -
NLP领域中的token和tokenization到底指的是什么?
前面都讲了是指什么,我来浅答一下目前大模型时代Tokenization(分词) 在(NLP)的任务中是最基本的一步,把文本内容处理为最小基本单元即token(标记,令牌,词元,没有准确的翻译)用于后续的处理,如何把文本处理成token呢?有一系列的方法,基本思想是构建一个词表通过词表一一映射进行分词,但如何构建合适的词表呢?原创 2024-05-03 21:17:17 · 1110 阅读 · 0 评论 -
GPT-2
的GPT-2展现出了惊人的写作能力,其生成内容的连贯且富有感情,超出了我们对目前语言模型的预期。GPT-2是在一个叫WebText的40GB的巨大数据集上训练的,这个数据集是OpenAI的工作者从网上收集的。从存储空间来看,我们的输入法只需要几十MB的空间,但是GPT-2最小的模型就需要500MB来存储它的参数,而最大的GPT-2模型是它的13倍,需要6.5GB的存储空间来存储其参数。key就像柜子里文件夹的标签,当你找到与便利贴上相关的标签的时候,我们取出该文件夹,文件夹中的内容就是value向量。原创 2024-05-03 21:15:48 · 772 阅读 · 0 评论 -
GPT-1
GPT-1 是 OpenAI 在论文中提出的生成式预训练语言模型。该模型的核心思想:通过二段式的训练,第一个阶段是利用语言模型进行预训练(无监督形式),第二阶段通过 Fine-tuning 的模式解决下游任务(监督模式下)。GPT-1 可以很好地完成若干下游任务,包括文本分类、文本蕴含、语义相似度、问答。在多个下游任务中,微调后的 GPT-1 系列模型的性能均超过了当时针对特定任务训练的 SOTA 模型。文本蕴含(Textual entailment)是指两个文本片段有指向关系。原创 2024-05-02 21:43:10 · 1469 阅读 · 0 评论 -
BERT模型详解
随着一些奇怪的高维数据出现,比如图像、语音,传统的统计学-机器学习方法遇到了前所未有的挑战。数据维度过高,数据单调,噪声分布广,传统的特征工程很难奏效。为了解决高维度的问题,出现的线性学习的PCA降维方法,PCA的数学理论确实无懈可击,但是却只对线性数据效果比较好。于是,寻求简单的、自动的、智能的特征提取方法仍然是机器学习的研究重点。于是,CNN另辟蹊径,利用卷积、降采样两大手段从信号数据的特点上很好的提取出了特征。对于一般非信号数据,该怎么办呢?原创 2024-05-02 21:10:36 · 1921 阅读 · 1 评论 -
Transformer算法组件详解
Transformer是谷歌在2017年的论文《Attention Is All You Need》中提出的,用于NLP的各项任务,现在是谷歌云TPU推荐的参考模型。网上有关Transformer原理的介绍很多,在本文中我们将尽量模型简化,让普通读者也能轻松理解。Transformer由于可并行、效果好等特点,如今已经成为机器翻译、特征抽取等任务的基础模块,目前ChatGPT特征抽取的模块用的就是Transformer,这对于后面理解ChatGPT的原理做了好的铺垫。原创 2024-05-01 11:04:25 · 1160 阅读 · 1 评论 -
开源大语言模型(LLM)汇总(持续更新中)
随着ChatGPT的火爆,越来越多人希望在本地运行一个大语言模型。为此我维护了这个开源大语言模型汇总,跟踪每天不发的大语言模型和精调语言模型。我将根据个模型采用的基础大模型进行分类,每个大模型下列出各派生模型。转载 2024-04-05 16:32:35 · 2599 阅读 · 1 评论