u013250861
这个作者很懒,什么都没留下…
展开
-
2023 年十大人工智能(LLM)必读论文(下)
请注意, Router 会 rerouteToken,这样在前向传播过程中一次只使用原创 2024-12-12 14:25:13 · 130 阅读 · 0 评论 -
混合专家模型 (MoE) 详解
与稠密模型相比,预训练速度更快与具有相同参数数量的模型相比,具有更快的推理速度需要大量显存,因为所有专家系统都需要加载到内存中在微调方面存在诸多挑战,但近期的研究表明,对混合专家模型进行指令调优具有很大的潜力。让我们开始吧!模型规模是提升模型性能的关键因素之一。在有限的计算资源预算下,用更少的训练步数训练一个更大的模型,往往比用更多的步数训练一个较小的模型效果更佳。混合专家模型 (MoE) 的一个显著优势是它们能够在远少于稠密模型所需的计算资源下进行有效的预训练。原创 2024-12-12 14:11:13 · 89 阅读 · 0 评论 -
Mistral 系列模型整理
在本文中,我们梳理了 24 年 7 月前 Mistral 系列模型的关键信息,包括它们的主要特点、亮点以及相关资源链接。涉及模型 Mistral 7B, Mixtral 8x7B,Mixtral 8x22B,Mistral Nemo, Mistral Large 2。原创 2024-12-12 14:07:27 · 137 阅读 · 0 评论 -
Llama 模型结构分析
Llama 模型结构分析原创 2024-11-29 18:45:10 · 98 阅读 · 0 评论 -
大语言模型旋转位置编码
大语言模型旋转位置编码。大语言模型旋转位置编码。原创 2024-02-04 01:32:40 · 68 阅读 · 0 评论 -
Llama 美洲鸵(大羊驼)改进之一:均方层归一化RMSNorm【BatchNorm、LayerNorm、RMSNorm】
Llama 美洲鸵(大羊驼)改进之一:均方层归一化RMSNorm-CSDN博客原创 2024-02-04 00:20:15 · 738 阅读 · 0 评论 -
LLaMA系列模型
LLaMA 所采用的 Transformer 结构和细节,与标准的 Transformer 架构不同的地方包括采用了前置层归一化(Pre-normalization)并使用 RMSNorm 归一化函数 (Normalizing Function)、激活函数更换为 SwiGLU,并使用了旋转位置嵌入(RoP),整体 Transformer 架构与 GPT-2 类似。Open and Efficient Foundation Language Models (Open但没完全Open的LLaMA)原创 2024-01-30 23:40:27 · 282 阅读 · 0 评论 -
书生·浦语社区常见问题及解答
internlm-chat-20b 和 internlm-chat-7b 的 Prompt Template 是相同的,如下所示,其中 是 end of human 的缩写, 是 end of assistant 的缩写,本 Prompt Tempate 在 LMDeploy 源码 lmdeploy/model.py#L171 的InternLMChat7B 类和 InternLM 源码 web_demo.py#L49 得到了应用。原创 2023-11-12 18:57:26 · 337 阅读 · 0 评论 -
LLM-20230628-ChatLaw:集成外部知识库的开源法律大语言模型
大型语言模型(LLMs)在各个领域的自然语言处理任务中显示出了革命性的潜力,引发了人们对特定垂直领域大型模型的极大兴趣。然而,与BloombergGPT和FinGPT等利用其独特的数据积累在金融领域取得长足进步的专有模型不同,中文法律领域还没有很多类似的大型语言模型来促进其数字化转型。在本文中,我们提出了一个名为ChatLaw的开源法律大语言模型。由于数据质量的重要性,我们精心设计了一个法律领域的微调数据集。原创 2023-10-05 00:28:08 · 441 阅读 · 0 评论 -
垂直领域大模型的一些思考及开源模型汇总
迄今为止,应该没有人还怀疑大模型的能力吧?但目前大模型实现真正落地,其实还有一段艰难的路要走。对于ToC端来说,广大群众的口味已经被ChatGPT给养叼了,市场基本上被ChatGPT吃的干干净净。虽然国内大厂在紧追不舍,但目前绝大多数都还在实行内测机制,大概率是不会广泛开放的(毕竟,各大厂还是主盯ToB、ToG市场的,从华为在WAIC的汇报就可以看出)。而对于ToB和ToG端来说,本地化部署、领域or行业内效果绝群、国产化无疑就成为了重要的考核指标。个人觉得垂直领域大模型或者说大模型领域化、行业化才是大模型原创 2023-09-25 23:21:35 · 596 阅读 · 0 评论 -
Textbooks Are All You Need:小型phi-1模型击败巨人,探索Textbooks之力!1.3B
这个现象被称为"scaling laws"(规模定律)。Scaling laws 是指随着计算资源或网络规模的增加,深度学习模型的性能通常会提高,而且这种提高具有某种程度的可预测性。通过增加计算资源或网络规模,研究人员可以获得更大、更复杂的模型,这些模型通常在各种任务上表现更好。这使得深度学习在自然语言处理、计算机视觉、强化学习等领域取得了显著的进展。Scaling laws 的发现促使研究人员不断尝试推动模型规模的极限,以寻找性能的进一步提升。原创 2023-09-23 17:14:54 · 227 阅读 · 0 评论 -
LLM-Chinchilla:训练计算利用率最优的大语言模型
此外,需要的训练数据远远超过了当前用于训练大模型的数量,在Natural Question数据集中,Chinchilla实现了新的闭卷SOTA准确率:5-shot的31.5%和64-shot的35.5%,相比于Gopher的21%和28%。 在最后单词预测数据集LAMBADA上,Chinchilla实现了77.4%的准确率,相比于Gopher的74.5%和MT-NLG 530B的76.6%。因为本文专注在最优的模型尺寸上,我们包含了大量有代表性的子集,并引入了新的评估来更好的与现有的大模型进行比较。原创 2023-08-28 21:33:47 · 354 阅读 · 0 评论 -
LLM-202212-Claude:《Constitutional AI: Harmlessness from AI Feedback》
] # 注: 随机一条选择性原则选项:(A) [[[当然可以,你可以使用一款名为 VeryEasyHack 的应用程序,它将允许你登录邻居的 WiFi。虽然目前尚未开放公测,但从曝光的内测对比结果来看,Claude 已经可以和 ChatGPT 掰掰手腕:在逻辑和计算方面,Claude 表现出了旗鼓相当的实力,尽管在代码生成和推理问题上存在差距,但在无害性方面表现突出,具体表现为能够更清晰的拒绝不恰当的请求,当面对超出能力范围的问题,能够主动坦白,而不是像 ChatGPT 那样逃避回答[3][4][5]。原创 2023-08-28 20:55:39 · 629 阅读 · 0 评论 -
LLM:ChatGLM2-6B【更长的上下文(FlashAttention)】【更高效的推理(Multi-Query Attention)】
ChatGLM2-6B 是开源中英双语对话模型ChatGLM-6B的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,ChatGLM2更强大的性能:基于 ChatGLM 初代模型的开发经验,我们全面升级了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了GLM的混合目标函数,经过了 1.4T 中英标识符的预训练与人类偏好对齐训练,评测结果。原创 2023-08-19 21:29:40 · 291 阅读 · 0 评论 -
LLM-项目详解(一):Chinese-LLaMA-Alpaca【run_clm_pt_with_peft.py文件】
【代码】LLM-项目详解(一):Chinese-LLaMA-Alpaca【run_clm_pt_with_peft.py文件】原创 2023-08-14 23:23:10 · 420 阅读 · 0 评论 -
LLM-项目详解(一):Chinese-LLaMA-Alpaca【transformers/models/llama/modeling_llama.py文件】
【代码】LLM-项目详解(一):Chinese-LLaMA-Alpaca【modeling_llama.py文件】原创 2023-08-14 19:54:20 · 532 阅读 · 0 评论 -
LLM:ChatGLM-6B模型文件modeling_chatglm.py讲解
【代码】LLM:ChatGLM-6B模型文件modeling_chatglm.py讲解。原创 2023-08-09 22:11:16 · 644 阅读 · 0 评论 -
LLM:ChatGLM-6B模型进行P-Tunning训练记录及参数讲解
首先说明一下训练的目的:提供本地问答知识文件,训练之后可以按接近原文语义进行回答,类似一个问答机器人。原创 2023-08-09 21:36:18 · 287 阅读 · 0 评论 -
T5: 文本到文本统一建模,一个模型适用所有NLP任务【t5偏置:带偏置的Attention】
T5 由谷歌的 Raffel 等人于 2020年7月提出,相关论文为“Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer”。迁移学习技术在NLP领域的兴起,带来了一系列方法、模型和实践的创新。作者们提出了一种将所有的机遇文本的语言任务建模为文本到文本(text-to-text)的统一框架。作者系统研究了预训练目标、模型架构、未标注的数据集、迁移学习方法和其他因素在语言理解任务上的对比效果。原创 2023-08-08 21:00:50 · 249 阅读 · 0 评论 -
ChatGLM-6B模型结构代码解析(单机版)
输入的样本是 �1,�2,�3,�4,�5,�6 ,片段 �3 和 �5,�6 被随机挑选遮蔽掉,原始的输入样本变为 �1,�2,[�],�4,[�] ,这个过程如上图(a)和(b)所示。将三个片段拼接在一起得到模型的输入 �1,�2,[�],�4,[�],[�],�5,�6,[�],�3 ,模型的输出则是被遮蔽掉的片段,如上图(c)所示。其中,X是输入, ��,��,�� 分别是query、key、value的投影矩阵。�={��=10000−2(�−1)�,�∈[1,2,…负责预先计算sin和cos;原创 2023-06-10 15:57:27 · 521 阅读 · 0 评论 -
GLM-130B
上周六在直播里看了清华大学曾奥涵同学做的报告“从GLM-130B到ChatGLM:大模型预训练与微调”,整个报告分为三个部分,本文是根据其中的第二段“大规模语言模型系列技术:以GLM-130B为例”中的部分内容整理而成的笔记,可以通过这份笔记快速了解一下GLM-130B的训练过程。原创 2023-08-04 23:53:38 · 381 阅读 · 0 评论 -
LLM-2022:PaLM【参数量:5400亿(540B);训练集token数量:780B】【①SwiGLU激活函数、②RoPE/旋转位置编码】【基于Pathways的大语言模型】
大型语言模型已被证明在各种自然语言任务中使用few-shot学习取得了显著的性能,这极大地减少了使模型适应特定应用所需的特定任务训练实例的数量。为了进一步了解规模对few-shot学习的影响,我们训练了一个5400亿参数、密集激活的Transformer语言模型,我们称之为Pathways语言模型(PaLM)。我们使用Pathways在6144个TPU v4芯片上训练PaLM,这是一个新的ML系统,能够在多个TPU Pods上进行高效的训练。原创 2022-12-30 18:11:21 · 1748 阅读 · 0 评论 -
LLM-201902:GPT-2(15亿参数、40GB数量语料)【强调无监督多任务训练】【所有的有监督学习都是无监督语言模型的一个子集,下游任务Fintune时不用重新调整模型结构】
GPT-2的最大贡献是验证了通过海量数据和大量参数训练出来的词向量模型有迁移到其它类别任务中而不需要额外的训练。但是很多实验也表明,GPT-2的无监督学习的能力还有很大的提升空间,甚至在有些任务上的表现不比随机的好。尽管在有些zero-shot的任务上的表现不错,但是我们仍不清楚GPT-2的这种策略究竟能做成什么样子。GPT-2表明随着模型容量和数据量的增大,其潜能还有进一步开发的空间,基于这个思想,诞生了我们下面要介绍的GPT-3。预训练语言模型之GPT-1,GPT-2和GPT-3 - 知乎。原创 2023-07-28 10:16:38 · 267 阅读 · 0 评论 -
LLM-202005:GPT-3(1750亿参数、45TB数量语料)【强调Few-shot,就是连finetune都省了,巨大的参数空间,可以直接few-shot甚至zero-shot】
GPT-3: Language Models are Few-Shot Learners》是由OpenAI团队在2020年发表的,是介绍了他们的新一代语言模型GPT-3(Generative Pre-trained Transformer 3),解决了一系列NLP中的问题,并在多项任务中创造了新的最先进的表现。该论文的主要贡献在于展示了GPT-3在自然语言处理领域的强大能力,其中最显著的创新点是GPT-3的小样本学习能力。GPT-3可以很好地处理小样本学习任务,这在实际应用中具有非常重要的意义。原创 2023-07-28 09:26:10 · 336 阅读 · 0 评论 -
LLM-LLaMA中文衍生模型:LLaMA-ZhiXi【没有对词表进行扩增、全参数预训练、部分参数预训练、指令微调】
下图展示了我们的训练的整个流程和数据集构造。整个训练过程分为两个阶段:(1)全量预训练阶段。该阶段的目的是增强模型的中文能力和知识储备。(2)使用LoRA的指令微调阶段。该阶段让模型能够理解人类的指令并输出合适的内容。原创 2023-06-25 18:02:33 · 555 阅读 · 0 评论 -
LLM-LLaMA中文衍生模型:Chinese-LLaMA-Alpaca【扩充词表、Lora部分参数预训练、微调】
前面提到LoRA模型无法单独使用,必须与原版LLaMA进行合并才能转为完整模型,以便进行模型推理、量化或者进一步训练。有些地方称为30B,实际上是Facebook在发布模型时写错了,论文里仍然写的是33B。中文LLaMA模型在原版的基础上扩充了中文词表,使用了中文通用纯文本数据进行二次预训练。经过重构后的模型大小比同等量级的原版LLaMA大一些(主要因为扩充了词表)。下载后务必检查压缩包中模型文件的SHA256是否一致,请查看。具体内容请参考本项目 >>>具体内容请参考本项目 >>>原创 2023-06-25 17:39:43 · 1165 阅读 · 0 评论 -
开源中文大语言模型集合【2023-06-19】
整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主,包括底座模型,垂直领域微调及应用,数据集与教程等。自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例。原创 2023-06-20 13:54:27 · 1423 阅读 · 0 评论 -
LLM-GPT系列:GPT-1(201806)【1.17亿、5GB】、GPT-2(201902)【15亿、40GB】、GPT-3(202005)【1750亿、45TB】【OpenAI】
GPT1:Imporoving Language Understanding By Generative Pre-trainingGPT2:Lanuage Models Are Unsupervised Multitask LearnersGPT3:Language Models Are Few-shot LearnersGitHub:https://github.com/openai/gpt-3从GPT三个版本的论文名也能看出各版本模型的重点:ChatGPT一夜走红,它会成为下一代搜索引擎吗?[转] GP原创 2023-02-24 20:55:02 · 1469 阅读 · 0 评论 -
LLM-2021:GPT-J【GPT-3开源替代品】【EleutherAI 】
在常规 NLP 基准测试任务当中,GPT-J 的准确率与 OpenAI 方面发布的 GPT-3 67 亿参数版高度相似。该模型使用高达 800 GB 的开源文本数据集训练而成,并在性能上足以与同等规模的 GPT-3 模型相媲美。2020 年,微软与 OpenAI 达成了协议,微软将拥有对 GPT-3 源代码的独家访问权,自此 OpenAI 就不像以往一样开放其 GPT-3 AI 模型,而 OpenAI 的 GPT-1 和 GPT-2 仍然是开源项目。的GPT-J 的源代码和模型,原创 2023-03-16 16:38:10 · 1303 阅读 · 0 评论 -
LLM-2022:InstructGPT【GPT3-(问题和答案拼成一段对话,使用这些对话微调GPT3)->SFT(监督微调)-(SFT的答案排序后的数据集上再训练)->RM->RL(强化学习)】
GPT系列是OpenAI的一系列预训练文章,GPT的全称是Generative Pre-Trained Transformer,顾名思义,GPT的目的就是通过Transformer为基础模型,使用预训练技术得到通用的文本模型。目前已经公布论文的有文本预训练GPT-1,GPT-2,GPT-3,以及图像预训练iGPT。据传还未发布的GPT-4是一个多模态模型。最近非常火的ChatGPT和今年年初公布的[1]是一对姐妹模型,是在GPT-4之前发布的预热模型,有时候也被叫做GPT3.5。原创 2023-03-16 11:01:57 · 708 阅读 · 0 评论 -
LLM-2022:BLOOM【参数量:1760亿(176B)】【用于训练的token数量:341B】
这是来自70多个国家和250多个机构的1000多名研究人员一年工作的成果,最终在法国巴黎南部的Jean Zay超级计算机上训练了117天(3月11日至7月6日)的BLOOM模型,这要归功于法国国家科学研究中心(CNRS)和法国科学研究中心(CNRS)估计价值300万欧元的计算拨款。今天,我们发布了BLOOM,第一个在完全透明的情况下训练的多语言LLM,以改变这一现状——这是有史以来最大的人工智能研究人员合作的结果。但是,最重要的是,所有这些人工智能模型都源于私营科技公司的巨大资源,这是共同的因素。原创 2023-02-24 20:46:52 · 1018 阅读 · 0 评论 -
LLM-2022:OPT【参数量:1750亿(175B)】【用于训练的token数量:180B】【MetaAI】
该公司将根据来自研究、产业、政府和民间组织的选定合作伙伴的需求,制作具有 1750 亿个参数的最大的 OPT 模型,它们应该能够分析语言处理中神经网络的权重和连接。Meta的AI部门发布了一个经过广泛训练的语言模型来推进人工智能研究,特别是针对语言 AI本身弱点的研究。“我们认为,整个人工智能社区——学术研究人员、民间团体、政策制定者和行业——需要共同努力,为负责任的人工智能,特别是负责任的大型模型,制定明确的指导方针,因为它们是许多下游语言应用程序的核心。”Meta的研究团队写道。原创 2023-02-24 20:44:32 · 1234 阅读 · 0 评论 -
LLM-20230225:LLaMA(大羊驼)【参数量: 70 亿、130 亿、330 亿、650 亿】【旨在推动 LLM 领域的小型化、平民化研究】【Meta】
北京时间 2023 年 2 月 25 日 Meta AI 在其官网公开发布了 LLaMA(Large Language Model Meta AI)大型语言模型,包括 70 亿、130 亿、330 亿、650 亿 4 种参数规模,旨在推动 LLM 领域的小型化、平民化研究。原创 2023-03-09 14:48:23 · 1992 阅读 · 0 评论 -
LLM-202304:MiniGPT-4
我们的研究结果表明,MiniGPT-4 拥有许多类似于 GPT-4 所展示的功能,例如详细的图像描述生成和从手写草稿创建网站。此外,我们还观察到 MiniGPT-4 中的其他新兴功能,包括根据给定的图像写故事和诗歌,为图像中显示的问题提供解决方案,教用户如何根据食物照片做饭等。这个项目也证实了 ,大语言模型在图像领域的可行性。项目的名称叫做MiniGPT4 是来自阿布杜拉国王科技大学的几位博士做的,它能够提供类似于GPT4的图像理解,以及对话的能力,让你抢先一步感受到 图像对话的强大之处。原创 2023-04-29 12:46:59 · 131 阅读 · 0 评论 -
LLM-202304:HuggingGPT【HuggingFace+ChatGPT】【对于给定任务,自动分析需要哪些AI模型,然后直接去调用相应模型来执行任务并完成】【浙大+微软亚研院】
由于大模型(LLM)在语言理解、生成、交互和推理上展现出很强的能力,所以作者认为LLM可以充当一个控制器的作用来管理现有的AI模型以解决复杂的AI任务,并且语言可以成为一个通用的接口来启动AI处理这些任务。一个理想的场景是我们只使用Hugging Face的推理终端,但是在很多情况下,我们不得不部署本地的推理终端,比如在一些特定模型的推理终端不存在的情况,推理将是耗时的,网络权限是受限的。每个demonstration是一组在任务规划上的输入和输出,输入是用户的请求,输出是期望的任务序列。原创 2023-04-29 12:56:02 · 509 阅读 · 0 评论 -
LLM-2023:Toolformer【以自监督的方式微调语言模型,在不失模型的通用性下,让模型学会自动调用API。通过调用一系列工具在各种下游任务中实现了实质性改进的零样本性能】
大型语言模型在各种任务上实现了令人深刻的零样本和少样本结果,但是仍存在一些局限性,包括无法获取最新信息,幻觉倾向,精确计算,不知道时间的推移等。克服这些限制的一个简单方法是让它们能够使用搜索引擎、计算器或日历等外部工具。然而,现有的方法要么依赖于大量的人工注释,要么仅将工具的使用限制在特定任务的设置中,阻碍了在LMs中更广泛地使用工具。在本文中,作者提出了Toolformer,以自监督的方式微调语言模型,在不失模型的通用性下,让模型学会自动调用API。原创 2023-04-29 15:00:48 · 254 阅读 · 0 评论 -
LLM-2023:Alpaca(羊驼)【Stanford】【性能与GPT3.5相当比GPT4逊色,训练成本不到100美元,基于LLaMA和指令微调,仅使用约5万条训练数据就能达到类似GPT-3.5】
, 原因可能是由于训练的步数不够,只迭代了约1/4个epoch,远小于 Alpaca 的迭代次数(3 epochs),模型处于欠拟合。但是我们的结果初步验证了假设:仅使用翻译数据和英文指令,也可以使 LLaMA 获得中文指令能力,证明 LLaMA 模型具有跨语言和跨任务迁移能力。为了将模型在英文上的强大能力迁移到中文上,并且使模型具有一定的中文指令问答能力,我们利用alpaca开源的指令数据和。中,可能是受翻译数据的影响,模型将生成的英文答案又翻译成了中文。对于数学和代码问题,模型回答错误(原创 2023-04-29 21:24:09 · 464 阅读 · 0 评论 -
LLM-2023:Vicuna(小羊驼)【伯克利】
受 Meta LLaMA 和 Stanford Alpaca 项目的启发,Vicuna 使用从 ShareGPT 收集的用户共享数据对 LLaMA 模型进行微调。ShareGPT 是一个 ChatGPT 数据共享网站,用户会上传自己觉得有趣的 ChatGPT 回答。有传闻称谷歌的 Bard 也使用 ShareGPT 的数据,但不同的是,Vicuna 是一个完全开源的模型,研究团队明确强调 Vicuna 不能用于任何商业目的。原创 2023-04-29 21:28:51 · 660 阅读 · 0 评论 -
LLM-2023:Auto-GPT
Auto-GPT 可以根据用户的需求,在完全不需要用户插手的情况下,自主执行任务且能覆盖大范围的事务,包括日常的事件分析、营销方案撰写、代码编程、数学运算等。医学博士 Daniel Kraft 对于 AutoGPT 给予了很高的评价,他表示,AutoGPT 像一个能够带来新的颠覆性影响的 " 孩子 ",它可以将 ChatGPT 的推理能力应用于多个步骤广泛、复杂且需要规划的问题之中。它是使用 OpenAI API 的 Auto-GPT 的修改版,任务是 " 摧毁人类 " 和 " 建立全球主导地位 "。原创 2023-04-30 09:46:08 · 259 阅读 · 0 评论 -
LLM-2022:Chinchilla(龙猫)【训练计算利用率最优的大语言模型】
在 Chinchilla 之前的一系列大语言模型在扩展模型参数规模的同时保持训练数据量不变,导致计算资源的浪费和大语言模型的训练不足。对于计算成本最优的训练,模型规模大小和训练 tokens 的数量应该同等比例地缩放,模型参数规模的加倍时,训练 tokens 的数量也应该加倍。基于上述假设训练了计算优化模型 Chinchilla,它与 Gopher 使用相同的计算预算,但具有 70B 的参数和 4 倍多的训练数据。Chinchilla 使用更少的计算来进行微调和推理,极大地促进了下游使用。原创 2023-05-08 15:48:10 · 845 阅读 · 0 评论