
大语言模型ChatGPT - LLM
文章平均质量分 64
分享LLM大语言模型相关技术。
量化交易曾小健(金融号)
曾小健,本博客专注于量化金融/交易,AI大模型等技术驱动的量化研究,传统金融/会计、金融风险管理、商科MBA、商务交流与沟通、领导力、营销、传播理论等;及一点点量子物理、免疫与健康;
背景:计算机博士,英国金融本科,出版书籍多部,多年金融、AI、等相关实战/一线工程师经验。
AI+生成式/通用人工智能技术请移步CSDN:AI生成曾小健
展开
-
首个开源、原生多模态生成大模型:变色龙Anole一键生成 「煎鸡蛋」图文菜谱
17个月的漫长等待,大家共同见证了以文本为核心的LLaVa的崛起,目睹了基于Diffusion的Dalle的惊艳,却始终未能一睹那个能够完美融合文字与图像的模型真容。通过创新的局部微调方法,只调整不到40m参数,在短时间内(8 个 A100 GPU 上大约 30 分钟),便成功激发出Chameleon的图像生成能力,使研究人员和开发者能够充分利用并基于Chameleon的架构进行后续的多模态AI研究工作。近年来,多模态AI技术取得了显著进展,Meta AI推出的Chameleon模型便是其中的代表。原创 2024-07-10 09:33:28 · 1358 阅读 · 0 评论 -
RoPE旋转位置编码从复数到欧拉公式
利用欧拉公式 eiθ=cos(θ)+isin(θ),我们可以将二维平面上的旋转操作简化为复数乘法。这种表示方法不仅简洁,而且在计算上非常高效,广泛应用于计算机图形学、信号处理和机器学习等领域。通过将旋转表示为复数乘法,可以方便地实现旋转位置编码,从而提高算法的旋转不变性和鲁棒性。eiθ=原创 2024-07-08 21:10:19 · 402 阅读 · 0 评论 -
NLP 面试八股:“Transformers / LLM 的词表应该选多大?“ 学姐这么告诉我答案
然后作者还尝试了在 llama 的基础上扩大词表继续训练,扩大了词表后效果依然有提升。注意这里是完全从头训练的 GPT-3 Large 模型,模型的参数量为 760M。因为 vocabulary 变大后,Embedding 层变大,最后输出的。和 训练代码中 vocabulary 的数量不一样, readme 中为。Baichuan 在技术报告里给出的一些模型的压缩率如下。的影响, 训练的信息不会丢失,推理的时候泛化能力也更强。151643,但是实际上代码里写的是 152064。原创 2024-07-08 20:09:19 · 1203 阅读 · 0 评论 -
一文彻底搞懂Transformer - Input(输入
文本预处理:将输入的文本数据进行预处理,包括分词(将文本拆分成单词或子词单元)、转换为小写、去除停用词等。这一步通常由分词器(Tokenizer)完成。原创 2024-07-08 16:43:49 · 1070 阅读 · 0 评论 -
Reformer RoPE,旋转位置编码,关于Transformer当中的位置编码的优化考察
DeBerta矩阵的定义与T5相反,T5是去除了位置与token的交叉项,只保留相对位置产生的偏移矩阵,而DeBerta与之相反,它去除掉了相对位置产生的偏置矩阵,但是留下了两个位置与token之间的交叉项,并将之用相对位置矩阵的方式进行保留。如前所述,位置编码的核心就是给每一个位置添加一个具体的position embedding从而令attention层的输入可以识别出其具体的位置,但是由于句长的无限性所以限制了绝对位置编码的使用方法。,大概会去考虑这个问题的人就大幅减少了。原创 2023-06-09 10:35:52 · 1121 阅读 · 0 评论 -
“伶荔”(Linly) 项目发布中文LLaMA2模型
随着大型语言模型在众多领域展现出巨大的应用潜力,基础模型也成为人们关注的焦点。近期,许多机构都推出了中文基础模型,如GLM、baichuan等,这些模型使用了大量算力构建,他们的公开也为社区研究者们提供了极大便利。同时,也有许多具有代表性的模型都主要基于英文训练(例如LLaMA-1&2、Falcon),虽然他们在英文上能力强大,但是跨语言性能较弱。原创 2023-08-03 13:48:20 · 502 阅读 · 0 评论 -
Llama2 指令精调脚本
这里列出的其他训练相关超参数(尤其是学习率,以及和total batch size大小相关的参数)仅供参考。请在实际使用时根据数据情况以及硬件条件进行配置。该脚本支持以下训练模式。不支持未在表格中的模式,如要修改请自行debug。其中一些参数的含义不言自明。########参数部分################启动命令########训练后的LoRA权重和配置存放。进行指令精调,默认使用单卡。,可用于后续的合并流程。原创 2023-08-01 22:15:31 · 635 阅读 · 0 评论 -
大语言模型能否替换传统多轮任务型问答系统?
本论文(Are LLMs All You Need for Task-Oriented Dialogue?)的研究背景是,大型语言模型(LLMs)由于其对话交互的能力在最近变得越来越受欢迎。因此,本文旨在研究LLMs在任务导向型对话中的表现。以往的方法中,专门针对任务的模型在处理数据实体上表现更好。通过本文的评价,LLMs的表现不如这些自定义模型。但是,LLMs在给定正确的槽位值的情况下,有引导对话进入成功结束的能力。另外,用户提供的实体数据与模型预测的槽位之间的差异越小,模型表现越好。原创 2023-07-15 17:08:23 · 696 阅读 · 0 评论 -
Rasa中文聊天机器人开发指南(3):Core篇
文章目录1. 对话管理1.1 多轮对话1.2 对话管理2.2 Domain2.6 Slots2.7 Form3. 改进ChitChatAssistant项目RASA 开发中文指南系列博文:Rasa中文聊天机器人开发指南(1):入门篇Rasa中文聊天机器人开发指南(2):NLU篇Rasa中文聊天机器人开发指南(3):Core篇Rasa中文聊天机器人开发指南(4):RasaX篇Rasa中文聊天机器人开发指南(5):Action篇。原创 2023-07-15 16:45:31 · 510 阅读 · 0 评论 -
针对Bert的改进,主要体现在增加训练语料、增添预训练任务、改进mask方式、调整模型结构、调整超参数、模型蒸馏等。
引言上一节我们讲到了BERT,如果要用一句时下正流行的话来形容 BERT 的出现,这句话大概再恰当不过: 一切过往, 皆为序章。Bert出现之后,研究者们开始不断对其进行探索研究,提出来各式的改进版,再各类任务上不断超越Bert。针对Bert的改进,主要体现在增加训练语料、增添预训练任务、改进mask方式、调整模型结构、调整超参数、模型蒸馏等。下面对近年来Bert的改进版本的关键点做叙述。深入浅出语言模型(一)——语言模型及其有趣的应用深入浅出语言模型(二)——静态语言模型(原创 2023-07-15 16:08:52 · 787 阅读 · 0 评论 -
ChatGLM-6B tuning 推理源码解析
对象、加载预训练模型和分词器,转换模型表示为半精度浮点数,并最终返回配置好的 PEFT 模型。这些操作涉及到模型配置、分词器的加载、模型的加载和转换等步骤,用于准备和配置 PEFT 模型的环境。对象、加载预训练模型和分词器,转换模型表示为半精度浮点数,并最终返回 PEFT 模型。这些操作涉及到了模型配置、分词器的加载、模型的加载和转换等步骤,用于准备和配置 PEFT 模型的环境。在函数中,创建了一个。方法从指定路径的预训练模型加载预训练的模型,并使用。方法从指定路径的预训练模型加载预训练的模型,并使用。原创 2023-06-22 09:15:27 · 632 阅读 · 0 评论 -
ChatGLM-6B源码解析 之 web_demo.py
这段代码的主要目标是使用预训练的ChatGPT模型("THUDM/chatglm-6b")来构建一个基于web的交互式聊天机器人。这些代码行加载了名为"THUDM/chatglm-6b"的预训练模型和它的tokenizer。方法将模型的数据类型转换为半精度浮点型,这可以在GPU上加快计算速度。是用来自动加载对应的模型和tokenizer的方法。是将markdown转换为html的工具。是一个NLP库,提供了很多预训练模型。是用于构建交互式UI的库,而。方法将模型移动到GPU上。设置模型为评估模式。原创 2023-06-21 18:11:04 · 3216 阅读 · 4 评论 -
全参数finetune Ziya-LLaMA-13B相关模型,目前支持数据并行+张量并行+ZeRO
这个示例主要用于全参数finetune相关模型,目前支持数据并行+张量并行+ZeRO。原创 2023-06-21 17:52:49 · 1343 阅读 · 1 评论 -
RM奖励模型用到的Elo评分系统
你现在是大学教授,请详细讲述Elo排名,用公式表示Ra:A玩家当前的RatingRb:B玩家当前的RatingSa:实际胜负值,胜=1,平=0.5,负=0Ea:预期A选手的胜负值,Ea=1/(1+10^[(Rb-Ra)/400])Eb:预期B选手的胜负值,Eb=1/(1+10^[(Ra-Rb)/400])因为E值也为预估,则Ea+ Eb=1Elo排名系统是一种用于计算玩家相对技能水平的方法,通常用于竞技型游戏和运动比赛中。原创 2023-06-16 17:42:33 · 1116 阅读 · 1 评论 -
RM奖励模型
本篇将介绍InstructGPT的RM过程,也就是reward model的训练,废话不多说,直接上干货。原创 2023-06-16 17:10:11 · 3494 阅读 · 0 评论 -
Reward Modelling(RM)and Reinfo
精选 原创©著作权文章标签文章分类阅读数Reward Modelling(RM)and Reinforcement Learning from Human Feedback(RLHF)for Large language models(LLM)技术初探。原创 2023-06-16 17:03:58 · 1020 阅读 · 0 评论 -
ChatGPT/InstructGPT详解
GPT系列是OpenAI的一系列预训练文章,GPT的全称是,顾名思义,GPT的目的就是通过Transformer为基础模型,使用预训练技术得到通用的文本模型。目前已经公布论文的有文本预训练GPT-1,GPT-2,GPT-3,以及图像预训练iGPT。据传还未发布的GPT-4是一个多模态模型。最近非常火的ChatGPT和今年年初公布的[1]是一对姐妹模型,是在GPT-4之前发布的预热模型,有时候也被叫做GPT3.5。原创 2023-06-16 16:33:26 · 587 阅读 · 0 评论 -
LLaMA, ChatGLM, BLOOM的参数高效微调实践
本文首先从训练数据、tokenizer和模型结构细节上对比了LLaMA、ChatGLM和BLOOM这三个主流的开源大语言模型,并介绍了这三个基座模型的衍生模型;接着详细介绍了不同大语言模型在tokenizer、layer normalization、激活函数和位置编码的模型细节;然后讲述了prompt tuning、prefix tuning、LLaMA- adapter和LoRA这些参数高效微调方法;最后对比了不同基座语言模型和不同微调方法的效果。原创 2023-06-16 14:32:34 · 1587 阅读 · 0 评论 -
UniLM详解,统一语言模型(Unified Language Model,UniLM)
预训练模型按照训练方式或者网络结构可以分成三类:一是以BERT[2]为代表的自编码(Auto-Encoding)语言模型,它使用MLM做预训练任务,自编码预训模型往往更擅长做判别类任务,或者叫做自然语言理解(Natural Language Understanding,NLU)任务,例如文本分类,NER等。二是以GPT[3]为代表的自回归(Auto-Regressive)语言模型,它一般采用生成类任务做预训练,类似于我们写一篇文章,自回归语言模型更擅长做生成类任务。原创 2023-06-15 14:17:49 · 2248 阅读 · 0 评论 -
Bert和T5的区别
在 skip-gram 的训练阶段,它学习预测给定单个单词作为输入的周围特定数量的单词。但该模型的主要局限在于,对给定单词的预测将仅基于有限数量的周围单词。另一方面,self-attention 不仅会检查句子中的所有其他单词,还会赋予它们一定程度的重要性。SA(‘article’) = “article”这个词与句子中其他词之间的关系量 (SA = Self-attention)。在该过程的最后,我们将为每个单词获得一个向量,其中包含代表单词及其与其他单词的关系的数值。预测中使用的标记(单词)的大小。原创 2023-06-14 17:31:13 · 1366 阅读 · 0 评论 -
Llama 美洲鸵(大羊驼)改进之一:均方层归一化RMSNorm
没有做re-center操作(移除了其中的均值项。原创 2023-06-09 13:38:08 · 19945 阅读 · 2 评论 -
零样本和少样本学习
零样本和少样本学习方法减少了对注释数据的依赖。因此对于新的领域和收集数据的困难的领域他们是很重要的。少样本(Few-Shot Learning FSL)是一种机器学习问题(由E, T和P指定),其中E只包含有限数量的例子,并带有监督信息。现有的FSL问题主要是监督学习问题。零样本学习(Zero-shot learning, ZSL)是机器学习中的一个问题解决方案,学习者在测试时从训练中没有观察到的类中观察样本,并预测他们所属的类。原创 2023-06-08 18:07:45 · 471 阅读 · 0 评论 -
Bert base和 Bert large参数对比
=768, A(Attention 多头个数)=12,L(网络层数)=12,使用GPU内存:32G多。使用GPU内存:7G多。原创 2023-06-07 18:40:33 · 1475 阅读 · 0 评论 -
达到chatgpt 90%效果的llama,Chinese-Alpaca-Plus-13B合并使用全过程分享
基于llama的开源项目有很多,本次测试的是一个基于7b的llama二次训练的项目,本项目开源了中文LLaMA模型和指令精调的Alpaca大模型。这些模型在原版LLaMA的基础上扩充了中文词表并使用了中文数据进行二次预训练,进一步提升了中文基础语义理解能力。同时,中文Alpaca模型进一步使用了中文指令数据进行精调,显著提升了模型对指令的理解和执行能力。在预训练阶段使用了20G中文语料的预训练。原创 2023-06-06 16:11:27 · 1518 阅读 · 0 评论 -
LoRA 不仅限于注意力层
T5)和无法通过常规微调运行的模型规模(例如 33B 和65B参数模型)。我们的结果表明,即使使用比以前的 SoTA 更小的模型,QLoRA 对小型高质量数据集的微调也会产生最先进的结果。我们提供了基于人类和 GPT-4 评估的聊天机器人性能的详细分析,表明。作者发现修改语言模型的注意力层足以高效地获得良好的下游性能。这就是为什么通常只将 LoRA 权重添加到模型的注意力层。此外,我们发现当前的聊天机器人基准测试无法准确评估聊天机器人的性能水平。我们最好的模型系列,我们命名为。单个 48GB GPU。原创 2023-06-06 10:12:55 · 375 阅读 · 0 评论 -
QLoRA:量化 LLM 的高效微调
我们提出了一种高效的微调方法QLORA,可以在单个48GB GPU上减少内存使用量,同时保持完整的16位微调任务性能,从而对一个拥有65B参数的模型进行微调。QLORA通过将梯度反向传播到冻结的4位量化预训练语言模型中,进而传递到低秩适配器(LoRA)。我们的最佳模型系列被命名为Guanaco,在Vicuna基准测试中表现优于所有先前公开发布的模型,达到ChatGPT性能水平的99.3%,仅需要单个GPU上的24小时微调时间。原创 2023-06-06 07:54:05 · 2513 阅读 · 0 评论 -
P-tuning v2 利用深度提示调优
一些读者注意到 SuperGLUE 中 P-tuning (v1) 和 P-tuning v2 之间的“不匹配”:这是因为在 P-tuning 的 SuperGLUE 实验中,为了与 PET 进行公平比较,我们遵循其实验设置,其中 backbone 预训练模型参数与连续提示嵌入。的能力,并缩小了跨各种设置进行微调的差距,特别是对于小型模型和艰巨的任务。等人的参数高效设置,其中骨干预训练模型参数被冻结。而在 P-tuning v2 中,我们遵循。每一层输入应用连续提示。原创 2023-06-05 14:44:09 · 286 阅读 · 0 评论 -
ChatGLM-6B,支持在单张消费级显卡上进行推理使用 案例
近日,由清华技术成果转化的公司智谱AI 开源了 GLM 系列模型的新成员——。这是继此前开源 GLM-130B 千亿基座模型之后,智谱AI 再次推出大模型方向的研究成果。与此同时,基于千亿基座模型的 ChatGLM 也同期推出,初具问答和对话功能,现已开启邀请制内测(),后续还会逐步扩大内测范围。据悉,ChatGLM-6B 是一个开源的、支持中英双语问答的对话语言模型,并针对中文进行了优化。该模型基于 General Language Model(GLM)架构,具有 62 亿参数。原创 2023-06-05 11:52:29 · 626 阅读 · 1 评论 -
ChatGLM-6B-PT,P-Tuning
本仓库实现了对于 ChatGLM-6B 模型基于的微调。P-Tuning v2 将需要微调的参数量减少到原来的 0.1%,再通过模型量化、Gradient Checkpoint 等方法,最低只需要 7GB 显存即可运行。下面以(广告生成) 数据集为例介绍代码的使用方法。原创 2023-06-05 11:35:44 · 319 阅读 · 0 评论 -
大型语言模型 (LoRA) 的低秩适应 Low Rank Adapdation
当您将 LoRA 权重与冻结的预训练模型权重合并时,您可以选择调整多少权重与参数合并。当您将 LoRA 权重与冻结的预训练模型权重合并时,您可以选择调整多少权重与参数合并。如果您想存储您的模型或与社区分享您的模型,请登录您的 Hugging Face 帐户(如果您还没有,请创建。的 LoRA 微调,能力有限。与不使用您的 LoRA 权重相同,您仅使用基本模型权重,而值。与不使用您的 LoRA 权重相同,您仅使用基本模型权重,而值。# 使用 LoRA 微调模型的一半权重和基础模型的一半权重。原创 2023-06-05 11:24:04 · 785 阅读 · 0 评论 -
LangChain 是一个强大的框架,可以简化构建高级语言模型应用程序的过程。
总之,LangChain 是一个强大的框架,它通过提供模块化和灵活的方法简化了构建高级语言模型应用程序的过程。LangChain 的适应性和易用性使其成为开发人员的宝贵工具,使他们能够释放语言模型的全部潜力,并在广泛的用例中创建智能的、上下文感知的应用程序。LangChain 可以轻松管理与语言模型的交互,将多个组件链接在一起,并集成额外的资源,例如 API 和数据库。这有助于维护上下文并提高模型对对话的理解。通过遵循这些示例,您可以使用 LLM、聊天模型、代理、链和内存功能开发强大的语言模型应用程序。原创 2023-06-05 11:09:16 · 522 阅读 · 0 评论 -
Vicuna:一款开源聊天机器人,以 90%* ChatGPT 质量给 GPT-4 留下深刻印象
收集的用户共享对话进行训练。使用 GPT-4 作为判断的初步评估表明,Vicuna-13B 达到了 OpenAI ChatGPT 和 Google Bard 90%* 以上的质量,同时在超过。的情况下优于 LLaMA 和 Stanford Alpaca 等其他模型。Vicuna-13B 的费用约为 300 美元。代码和权重以及在线演示可公开用于非商业用途。,这是一种开源聊天机器人,通过微调。原创 2023-06-05 10:55:23 · 408 阅读 · 0 评论 -
RLHF,Reinforcement Learning from Human Feedback
虽然比损失函数本身更适合衡量性能,但这些指标只是简单地将生成的文本与具有简单规则的引用进行比较,因此也有局限性。RLHF 使语言模型能够开始将在一般文本数据语料库上训练的模型与复杂人类价值观的模型对齐。有许多应用程序,例如编写您需要创意的故事、应该真实的信息性文本片段,或者我们希望可执行的代码片段。从人类反馈中强化学习(也称为来自人类偏好的 RL)是一个具有挑战性的概念,因为它涉及多模型训练过程和不同的部署阶段。这些都是我所说的昂贵的增强数据的来源,但这不是理解 RLHF 所必需的技术。原创 2023-06-02 02:23:14 · 263 阅读 · 0 评论 -
chain of thought 也就是 CoT思维链
但是这两种方法都有着局限性,前者微调计算成本太高,后者采用传统的输入输出样例在推理任务上效果很差,而且不会随着语言模型规模的增加而有实质性的改善。最终的实验效果非常好,比如说在使用谷歌内部的 540B 参数量的 PaLM 大语言模型,CoT 能够在像 GSM8K 这样比较难一点的数学问题数据集上取得新的 state of art。现在语言模型的规模越来越大,但是即便是现在最大的语言模型,它们也往往很难在涉及到推理方面的任务取得很好的表现,也就是说,他们通常很难在数学,符号,以及常识的推理上取得尚佳的表现。原创 2023-06-01 06:16:12 · 891 阅读 · 0 评论 -
Stable Diffusion - Image to Prompts 推断生成我们“高度详细、清晰的焦点、插图、宏伟、史诗般的 3d 渲染”图像的提示
一部分是艺术,一部分是悬而未决的科学,机器学习从业者和研究人员正在迅速努力理解提示与其生成的图像之间的关系。提示中的小扰动会导致高度不同的图像吗?本次比赛的任务是创建一个模型,该模型可以可靠地反转生成给定图像的扩散过程。与“majestic kitten”相似——您将提交预测提示的嵌入。祝你好运,愿你在本文中创建“高质量、专注、复杂、详细、具有不真实的稳健交叉验证风格”的模型。您将对包含由 Stable Diffusion 2.0 生成的各种(提示、图像)对的数据集进行预测,以了。尽管字符级别存在差异。原创 2023-05-31 09:33:43 · 263 阅读 · 0 评论 -
inworld.ai -- chatgpt角色化
台,并添加可配置的安全性、知识、记忆、叙事控制、多模态等。通过内置的规模和性能优化,无缝集成到实时。获得超越大型语言模型 (LLM) 的。完全集成的 AI 角色平。原创 2023-05-31 09:22:00 · 228 阅读 · 0 评论 -
语义内核简介
因此,例如,使用 GPT-4 进行医疗病例笔记摘要的应用程序可以使用来自医学论文、合适的匿名笔记和其他相关文本的嵌入的矢量数据库,以确保其输出是连贯的和上下文中的。Kernel在这里的关键是作为业务流程协调器的角色,因为它不仅能够处理当前提示及其关联的令牌,还能够处理内存(键值对、本地存储和矢量或“语义”搜索),与其他信息服务的连接器,以及混合提示和传统代码的预定义技能。但是,还有第三种选择,语义记忆。类似的文本在与您的模型及其内容关联的整体空间中将具有相似的向量,就像搜索引擎生成排名结果的方式一样。原创 2023-05-30 05:26:29 · 263 阅读 · 0 评论 -
多个chatgpt模型
从 Alpaca 获得灵感,使用收集了大约800,000 个提示-响应对,创建了430,000 个助手式提示和生成训练对,包括代码、对话和叙述。80 万对大约是羊驼的 16 倍。该模型最好的部分是它可以在 CPU 上运行,不需要 GPU。与 Alpaca 一样,它也是一个开源软件,可以帮助个人进行进一步的研究,而无需花费在商业解决方案上。原创 2023-05-30 04:56:56 · 291 阅读 · 0 评论 -
FastChat (Vicuna) 存储库尚不支持 GPTQ 量化模型
另一个优点是使用量化模型版本时推理过程中的加速约为 3 倍。是的,量化模型的精度略低,因此性能略差于全精度模型。然而,正是模型的量化让我们中的许多人完全可以使用该模型。存储库集成到此分支中以运行 GPTQ 量化模型。为什么我们应该使用 Vicuna 模型的 GPTQ 量化版本?通过使用 GPTQ 量化版本,我们可以将 VRAM 要求从。,这使我们能够在单个消费类 GPU 上运行。表明,特别是对于较大的语言模型,由于。28 GB 减少到大约 10 GB。应用量化而导致的质量下降。原创 2023-05-27 23:30:32 · 518 阅读 · 0 评论 -
大型语言模型空间,美洲陀 LLaMA ,
我们还在论文中提供了一组评估模型偏差和毒性的基准评估,以显示模型的局限性并支持在这一关键领域的进一步研究。即使最近在大型语言模型方面取得了所有进展,但由于训练和运行此类大型模型所需的资源,对它们的全面研究访问仍然有限。在大型语言模型空间中训练像 LLaMA 这样的小型基础模型是可取的,因为它需要更少的计算能力和资源来测试新方法、验证他人的工作和探索新的用例。为了训练我们的模型,我们从使用最多的 20 种语言中选择了文本,重点是那些使用拉丁字母和西里尔字母的语言。1.4 万亿个token。原创 2023-05-27 05:12:21 · 122 阅读 · 0 评论