![](https://img-blog.csdnimg.cn/473c24fdec294eeca7c8fe8b2e3385eb.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大模型与ChatGPT系列:原理、论文、代码、应用
文章平均质量分 96
涉及:①ChatGPT原理系列、②类ChatGPT的微调/部署/实现(涵盖英文和中文两类)、③LLM应用:垂类模型、与langchain/知识图谱的结合,至于AIGC/AI绘画/CV多模态已放在另一个专栏里,无论哪个专栏,始终在不断改进、不断更新
v_JULY_v
七月在线创始人兼CEO,结构之法算法之道blog之博主
展开
-
一文通透mamba2:力证Transformer are SSM——从SSM、半可分矩阵、SSD到mamba2
实话说,过去一两月一直忙着我司两大类项目的推进所以虽然说mamba2已发布一月有余,但实在是没有一块完整的时间来对其做详尽而细致的解读,而最终促使我来写的最大的动力还是来源于我半年前对mamba1的解读实在是太受欢迎了且影响力巨大然,在我下定决心写本文之前,内心还是有过一阵小纠结的不过还是因为过去十多年写博客的经验,使得自己在面对再难啃的算法都有足够的自信与底气,坚信都可以一步步拆解、一步步抽丝剥茧并清晰易懂的写出来,故本文最终还是来了。原创 2024-07-03 00:34:02 · 2621 阅读 · 13 评论 -
一文速览Gemma及其微调:通过我司七月的早期paper-7方面review数据集微调Gemma2
如此文《》所讲Google作为曾经的AI老大,我司自然紧密关注,所以当Google总算开源了一个gemma 7b,作为有技术追求、技术信仰的我司,那必须得支持一下,比如用我司的paper-review数据集微调试下,彰显一下gemma的价值与威力。原创 2024-06-29 11:58:11 · 1884 阅读 · 0 评论 -
七月论文审稿GPT第5版:拿我司七月的早期paper-7方面review数据集微调LLama 3
用早期paper-4方面review微调llama2本节微调完之后,自然便可以与以下模型PK(针对哪个情况,则用那个情况的paper,所以评估llama3版本的情况3时,则都统一早期paper)原创 2024-06-24 17:17:51 · 1536 阅读 · 0 评论 -
一文通透想取代MLP的KAN:通俗理解Kolmogorov-Arnold定理和KAN的方方面面
24年5.19,我司七月的「LLM论文100课」里的一学员在课程q群内提到,“最近总是看到KAN,KAN这个概念重要吗?需要了解学习吗?”,我当时回复道:KAN值得学习和了解,咱们课程上 也要讲一下如此,本文也就出来了。原创 2024-05-20 23:49:21 · 6198 阅读 · 6 评论 -
一文速览Llama 3:从Llama 3的模型架构到如何把长度扩展到100万
4.19日凌晨正准备睡觉时,突然审稿项目组的文弱同学说:Meta发布Llama 3系列大语言模型了一查,还真是本文以大模型开发者的视角,帮你迅速梳理下LLama的关键特征,并对比上一个版本的LLama2,且本文后续,将更新用我司paper-review数据集微调llama3的训练过程。原创 2024-04-19 10:45:36 · 8747 阅读 · 1 评论 -
一文通透想颠覆Transformer的Mamba:从SSM、HiPPO、S4到Mamba
如本文开头所说,mamba论文的一作Albert Gu多年来一直在推动SSM的发展他在SSM的基础上,通过此篇论文《》首次提出了结构化状态空间S4(这里有关于S4的更多论文),但这篇论文的可读性比较差当然,作者在YouTube上有一个关于这篇S4论文的精彩解读,比S4论文的可读性提高很多,且本文中也应用了其中的部分PPT截图,但还可以更加通俗易懂。原创 2023-12-11 12:48:36 · 111840 阅读 · 181 评论 -
RLHF的替代之DPO原理解析:从RLHF、Claude的RAILF到DPO、Zephyr
今年5月份,斯坦福的一些研究者提出了RLHF的替代算法:直接偏好优化(Direct Preference Optimization,简称DPO),其对应论文为《那其与ChatGPT所用的RLHF有何本质区别呢,简言之RLHF将奖励模型拟合到人类偏好数据集上,然后使用RL方法比如PPO算法优化语言模型的策略,以输出可以获得高奖励的responses(同时不会偏离原始SFT模型太远)原创 2023-11-06 12:56:05 · 13118 阅读 · 4 评论 -
一文通透各种注意力:从多头注意力MHA到分组查询注意力GQA、多查询注意力MQA
因此,可以确认:在 MQA 中,除了 query 向量还保存着 8 个头,key 和 value 向量都只剩 1 个「公共头」了,这也正好印证了论文中所说的「所有 head 之间共享一份 key 和 value 的参数」然而,随着上下文窗口或批量大小的增加,多头注意力 (MHA)模型中与 KV 缓存大小相关的内存成本显着增长。对于较大的模型,KV 缓存大小成为瓶颈,键和值投影可以在多个头之间共享,而不会大幅降低性能,可以使用。),其能够在保证模型效果的同时加快 decoder 生成 token 的速度。原创 2023-11-05 11:48:34 · 6837 阅读 · 0 评论 -
一文通透位置编码:从标准位置编码、旋转位置编码RoPE到ALiBi、LLaMA 2 Long
关于位置编码和RoPE为彻底解决这个位置编码/RoPE的问题,我把另外两篇文章中关于这部分的内容抽取出来,并不断深入、扩展、深入,最终成为本文。原创 2023-10-27 23:16:18 · 19041 阅读 · 23 评论 -
通透理解FlashAttention与FlashAttention2:全面降低显存读写、加快计算速度
因此,可以确认:在 MQA 中,除了 query 向量还保存着 8 个头,key 和 value 向量都只剩 1 个「公共头」了,这也正好印证了论文中所说的「所有 head 之间共享一份 key 和 value 的参数」所以,上面讲到计算注意力的主要瓶颈是显存访问,因此减少对HBM的读写次数,有效利用更高速的SRAM来进行计算是非常重要的,而GPU有大量的线程来执行某个操作,称为。(需要注意的是,模型训练通常会影响到算子融合的效果,因为为了后向传递计算梯度,通常需要将某些中间结果写入到HBM中)原创 2023-10-06 20:08:32 · 28196 阅读 · 57 评论 -
从零实现带RLHF的类ChatGPT:逐行解析微软DeepSpeed Chat的源码
如此文所述,微软开源的DeepSpeed Chat(简称DSC)实现的不错,会给你一个完整而通透的“PPO算法/RLHF”的代码实现全流程,好的资料可以让你事半功抠完它的关键代码后,你会发现和之前本博客内另一篇写的原理部分都一一对应起来了(ChatGPT技术原理解析,只有懂原理才能更好的理解实现或实际实现,特别是该文的第三部分),而把论文、原理/算法、公式、代码一一对应,可以让你的理解有个质变微软开源的DeepSpeed Chat :一键式RLHF训练,可以用于自己训练ChatGPT中文版。原创 2023-09-17 10:46:29 · 7838 阅读 · 9 评论 -
知识图谱实战导论:从什么是KG到LLM与KG/DB的结合实战
DB-GPT基于 FastChat 构建大模型运行环境,并提供 vicuna 作为基础的大语言模型。此外,通过LangChain提供私域知识库问答能力,且有统一的数据向量化存储与索引:提供一种统一的方式来存储和索引各种数据类型,同时支持插件模式,在设计上原生支持Auto-GPT插件,具备以下功能或能力根据自然语言对话生成分析图表、生成SQL与数据库元数据信息进行对话, 生成准确SQL语句与数据对话, 直接查看执行结果。原创 2023-09-16 11:22:14 · 8056 阅读 · 0 评论 -
大模型并行训练指南:通俗理解Megatron-DeepSpeed之模型并行与数据并行
BLOOM 的模型架构与GPT3非常相似,只是增加了一些改进,本文稍后将对此进行讨论。该模型是在Jean Zay上训练的,Jean Zay 是由 GENCI 管理的法国政府资助的超级计算机,安装在法国国家科学研究中心 (CNRS) 的国家计算中心IDRIS。训练所需的算力由 GENCI 慷慨捐赠给本项目 (捐赠号 2021-A0101012475)。GPU: 384 张 NVIDIA A100 80GB GPU (48 个节点) + 32 张备用 GPU。原创 2023-08-24 14:58:54 · 24160 阅读 · 3 评论 -
LLM高效参数微调方法:从Prefix Tuning、Prompt Tuning、P-Tuning V1/V2到LoRA、QLoRA(含对模型量化的解释)
常规部分的正向传播由transformers所定义,而LoRA部分的正向传播则由LinearLayer_LoRA(nn.Module)的forward()所定义,即“LoRA层的两条分支结果进行加和”,如下图所示『一般用随机高斯分布初始化,当然实际代码实现时,比如微软的deepspeed chat在用到LoRA时,一开始通过0矩阵占位,然后调用搭配ReLU激活函数的kaiming均匀分布初始化。,相当于在训练期间,较小的权重矩阵(下图中的A和B)是分开的,但一旦训练完成,权重可以合并到一个新权重矩阵中。原创 2023-08-05 10:47:47 · 13745 阅读 · 22 评论 -
baichuan7B/13B的原理与微调:从baichuan的SFT实现到baichuan2的RLHF实现
2023年7月11日,百川智能发布Baichuan-13B(这是其GitHub地址Baichuan-13B 是继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型,本次发布包含以下两个版本预训练(对齐(,July注:我看了下代码,这里的对齐指的是通过对话数据对齐,即只做了SFT,没做RLHF)更大尺寸、更多数据Baichuan-13B 在 Baichuan-7B 的基础上进一步扩大参数量到130亿,并且在高质量的语料上训练了1.4。原创 2023-07-05 11:34:45 · 17013 阅读 · 15 评论 -
医疗金融法律大模型:从ChatDoctor到BloombergGPT/FinGPT/FinBERT、ChatLaw/LawGPT_zh
第一部分 各种医疗类ChatGPT:或中英文数据微调LLaMA、或中文数据微调ChatGLM1.1基于LLaMA微调的中英文版ChatDoctor11.1.1 ChatDoctor:通过self-instruct技术提示API的数据和医患对话数据集微调LLaMA原创 2023-07-05 10:45:26 · 18379 阅读 · 0 评论 -
ChatGLM两代的部署/微调/实现:从基座GLM、ChatGLM的LoRA/P-Tuning微调、6B源码解读到ChatGLM2的微调与实现
随着『GPT4多模态/Microsoft 365 Copilot/Github Copilot X/ChatGPT插件』的推出,绝大部分公司的技术 产品 服务,以及绝大部分人的工作都将被革新一遍类似iPhone的诞生 大家面向iOS编程 有了App Store现在有了ChatGPT插件/GPT应用商店,以后很多公司 很多人面向GPT编程(很快技术人员分两种,一种懂GPT,一种不懂GPT)然ChatGPT/GPT4基本不可能开源了,而通过上文《原创 2023-03-31 16:40:41 · 61857 阅读 · 21 评论 -
LLaMA的解读与其微调(含LLaMA 2):Alpaca-LoRA/Vicuna/BELLE/中文LLaMA/姜子牙
还开始研究一系列开源模型(包括各自对应的模型架构、训练方法、训练数据、本地私有化部署、硬件配置要求、微调等细节)该项目部分一开始是作为此文《》的第4部分,但但随着研究深入 为避免该文篇幅又过长,将把『第4部分 开源项目』抽取出来 独立成本文。原创 2023-03-22 14:45:28 · 68775 阅读 · 12 评论 -
详解带RLHF的类ChatGPT:从TRL、ChatLLaMA到ColossalChat、DSC
如果未提供模板,则使用默认模板artifacts/generate_rewards.py,注:所有模板都必须保存在一个名为 .json 的 JSON 文件中templates.json。其中列表包含多个dictionaries,每个dictionary 对应一个数据样本,建议使用超过 1000 个数据样本来进行对actor的训练。在获得最终模型权重后,还可通过量化降低推理硬件成本,并启动在线推理服务,仅需单张约 4GB 显存的 GPU 即可完成 70 亿参数模型推理服务部署。原创 2023-04-06 18:49:43 · 20067 阅读 · 12 评论 -
LLM/ChatGPT与多模态必读论文150篇(已更至第101篇)
2022年8月发布的Stable Diffusion基于Latent Diffusion Models,专门用于文图生成任务。总之,读的论文越多,博客内相关笔记的质量将飞速提升 自己的技术研究能力也能有巨大飞跃。且考虑到为避免上篇文章篇幅太长而影响完读率,故把这100论文的清单抽取出来独立成本文。// 23年2.27日起,本榜单几乎每天更新中。原创 2023-03-13 21:54:14 · 30054 阅读 · 13 评论 -
ChatGPT技术原理解析:从RL之PPO算法、RLHF到GPT4、instructGPT
本篇ChatGPT笔记会全力做到,通俗易懂且循序渐进(尽最大努力让每一个初学者哪怕是文科生都能没有障碍的读懂每一字一句、每一个概念、每一个公式)一方面,对于想了解ChatGPT背后原理和如何发展而来的,逐一阐述从GPT/GPT2/GPT3到强化学习、PPO算法,最后再到instructGPT、ChatGPT、SeqGAN且本文之前,99%的文章都不会把PPO算法从头推到尾,本文会把PPO从零推到尾,按照“RL-策略梯度-重要性采样(重要性权重)-TRPO(增加信任区域和KL散度约束)-PPO”的顺序逐步原创 2023-01-15 22:01:27 · 187330 阅读 · 136 评论 -
强化学习极简入门:通俗理解MDP、DP MC TC和Q学习、策略梯度、PPO
强化学习里面的概念、公式,相比ML/DL特别多,初学者刚学RL时,很容易被接连不断的概念、公式给绕晕,而且经常忘记概念与公式符号表达的一一对应(包括我自己在1.10日之前对好多满是概念/公式的RL书完全看不下去,如今都看得懂了,故如果读文本之前,你正在被RL各种公式困扰,相信看完这篇RL极简入门后就完全不一样了)。原创 2023-02-10 11:12:38 · 46125 阅读 · 92 评论 -
从零实现Transformer的简易版与强大版:从300多行到3000多行
transformer强大到什么程度呢,基本是17年之后绝大部分有影响力模型的基础架构都基于的transformer(比如,有200来个,包括且不限于基于decode的GPT、基于encode的BERT、基于encode-decode的T5等等)通过博客内的这篇文章《》,我们已经详细了解了transformer的原理(如果忘了,建议先务必复习下再看本文)原创 2023-04-12 18:24:41 · 36060 阅读 · 47 评论 -
Transformer通俗笔记:从Word2Vec、Seq2Seq逐步理解到GPT、BERT
我在写上一篇博客《》时,有读者在文章下面评论道:“july大神,请问BERT的通俗理解还做吗?”,我当时给他发了张俊林老师的BERT文章,所以没太在意。直到今天早上,刷到CSDN上一篇讲BERT的文章,号称一文读懂,我读下来之后,假定我是初学者,读不懂。(这是),再比如国内张俊林老师的这篇《》,然后你会发现几乎网上关于Transformer/BERT的文章无外乎是以下这几种情况。原创 2022-10-23 23:03:05 · 81061 阅读 · 126 评论