
大模型与ChatGPT系列:原理、论文、代码、应用
文章平均质量分 96
涉及:①ChatGPT原理系列、②类ChatGPT的微调/部署/实现(涵盖英文和中文两类)、③LLM应用:垂类模型、与langchain/知识图谱的结合,至于AIGC/AI绘画/CV多模态已放在另一个专栏里,无论哪个专栏,始终在不断改进、不断更新
v_JULY_v
七月在线创始人兼CEO,结构之法算法之道blog之博主
展开
-
一文总览OpenAI o1相关的技术:从CoT、Quiet-STaR、Self-Correct、Self-play RL、MCTS等到类o1模型rStar-Math
可能是去年写或讲的关于ChatGPT原理的文章和课程,影响力太大了导致自从OpenAI o1出来后,每过两天,就有朋友问,“校长 o1啥时候出解读或课程”,实在是各个大模型项目上的事情太多,加之近期一直在抠机器人(比如本博客内连发了五篇机器人相关的文章,再不刻意强插一下比如o1,真的很难停下来)但,今天又有朋友来问,故,准备并行开写o1了一开始,我主要是看的这几个资料但随着本文越写越深,挖出来的相关资料也越来越多,我会竭尽所能,确保本文具备以下两大特征。原创 2024-10-12 18:37:59 · 29784 阅读 · 5 评论 -
一文速览Llama 3.1——对其92页paper的全面细致解读:涵盖语言、视觉、语音的架构、原理
llama3 刚出来时,其长度只有8K对于包括我司在内的大模型开发者是个小小的缺憾,好在很快,在7.23日,Meta发布了Llama 3.1,长度终于达到了128K这个长度使得可以直接通过我司的paper-review数据集去微调了如此,便有了本文:解读下llama3.1的paper,结果一看92页,好在昨天我司上线了基于大模型的翻译系统,那先翻译一下 快速看下大概 然后慢慢抠。原创 2024-07-24 12:19:47 · 25995 阅读 · 7 评论 -
程序员面试、算法研究、机器学习、大模型/ChatGPT/AIGC、论文审稿、具身智能/人形机器人、RAG等16大系列集锦
程序员面试、算法研究、编程艺术、红黑树、机器学习5大经典原创系列集锦与总结作者:July--结构之法算法之道blog之博主。时间:2010年10月-2018年5月,一直在不断更新中..出处:http://blog.csdn.net/v_JULY_v。说明:本博客中部分文章经过不断修改、优化,已集结出版成书《编程之法:面试和算法心得》。前言开博4年有余,...原创 2020-01-05 20:42:56 · 765327 阅读 · 0 评论 -
一文速览Llama 3:从Llama 3的模型架构到如何把长度扩展到100万——基于NTK-aware插值
4.19日凌晨正准备睡觉时,突然审稿项目组的文弱同学说:Meta发布Llama 3系列大语言模型了一查,还真是本文以大模型开发者的视角,帮你迅速梳理下LLama的关键特征,并对比上一个版本的LLama2,且本文后续,将更新用我司paper-review数据集微调llama3的训练过程。原创 2024-04-19 10:45:36 · 14410 阅读 · 1 评论 -
RLHF的替代之DPO原理解析:从RLHF、Claude的RAILF到DPO、Zephyr
今年5月份,斯坦福的一些研究者提出了RLHF的替代算法:直接偏好优化(Direct Preference Optimization,简称DPO),其对应论文为《那其与ChatGPT所用的RLHF有何本质区别呢,简言之RLHF将奖励模型拟合到人类偏好数据集上,然后使用RL方法比如PPO算法优化语言模型的策略,以输出可以获得高奖励的responses(同时不会偏离原始SFT模型太远)原创 2023-11-06 12:56:05 · 23130 阅读 · 4 评论 -
从零实现带RLHF的类ChatGPT:逐行解析微软DeepSpeed Chat的源码
如此文所述,微软开源的DeepSpeed Chat(简称DSC)实现的不错,会给你一个完整而通透的“PPO算法/RLHF”的代码实现全流程,好的资料可以让你事半功抠完它的关键代码后,你会发现和之前本博客内另一篇写的原理部分都一一对应起来了(ChatGPT技术原理解析,只有懂原理才能更好的理解实现或实际实现,特别是该文的第三部分),而把论文、原理/算法、公式、代码一一对应,可以让你的理解有个质变微软开源的DeepSpeed Chat :一键式RLHF训练,可以用于自己训练ChatGPT中文版。原创 2023-09-17 10:46:29 · 12358 阅读 · 0 评论 -
知识图谱实战导论:从什么是KG到LLM与KG/DB的结合实战
DB-GPT基于 FastChat 构建大模型运行环境,并提供 vicuna 作为基础的大语言模型。此外,通过LangChain提供私域知识库问答能力,且有统一的数据向量化存储与索引:提供一种统一的方式来存储和索引各种数据类型,同时支持插件模式,在设计上原生支持Auto-GPT插件,具备以下功能或能力根据自然语言对话生成分析图表、生成SQL与数据库元数据信息进行对话, 生成准确SQL语句与数据对话, 直接查看执行结果。原创 2023-09-16 11:22:14 · 10934 阅读 · 0 评论 -
大模型并行训练指南——通俗理解Megatron-DeepSpeed:从模型并行(张量并行、流水线并行)到数据并行ZeRO3优化
BLOOM 的模型架构与GPT3非常相似,只是增加了一些改进,本文稍后将对此进行讨论。该模型是在Jean Zay上训练的,Jean Zay 是由 GENCI 管理的法国政府资助的超级计算机,安装在法国国家科学研究中心 (CNRS) 的国家计算中心IDRIS。训练所需的算力由 GENCI 慷慨捐赠给本项目 (捐赠号 2021-A0101012475)。GPU: 384 张 NVIDIA A100 80GB GPU (48 个节点) + 32 张备用 GPU。原创 2023-08-24 14:58:54 · 39740 阅读 · 0 评论 -
LLM高效参数微调方法:从Prefix Tuning、Prompt Tuning、P-Tuning V1/V2到LoRA、QLoRA(含对模型量化的解释)
常规部分的正向传播由transformers所定义,而LoRA部分的正向传播则由LinearLayer_LoRA(nn.Module)的forward()所定义,即“LoRA层的两条分支结果进行加和”,如下图所示『一般用随机高斯分布初始化,当然实际代码实现时,比如微软的deepspeed chat在用到LoRA时,一开始通过0矩阵占位,然后调用搭配ReLU激活函数的kaiming均匀分布初始化。,相当于在训练期间,较小的权重矩阵(下图中的A和B)是分开的,但一旦训练完成,权重可以合并到一个新权重矩阵中。原创 2023-08-05 10:47:47 · 19777 阅读 · 22 评论 -
baichuan7B/13B的原理与微调:从baichuan的SFT实现到baichuan2的RLHF实现
2023年7月11日,百川智能发布Baichuan-13B(这是其GitHub地址Baichuan-13B 是继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型,本次发布包含以下两个版本预训练(对齐(,July注:我看了下代码,这里的对齐指的是通过对话数据对齐,即只做了SFT,没做RLHF)更大尺寸、更多数据Baichuan-13B 在 Baichuan-7B 的基础上进一步扩大参数量到130亿,并且在高质量的语料上训练了1.4。原创 2023-07-05 11:34:45 · 18769 阅读 · 15 评论 -
医疗金融法律大模型:从ChatDoctor到BloombergGPT/FinGPT/FinBERT、ChatLaw/LawGPT_zh
第一部分 各种医疗类ChatGPT:或中英文数据微调LLaMA、或中文数据微调ChatGLM1.1基于LLaMA微调的中英文版ChatDoctor11.1.1 ChatDoctor:通过self-instruct技术提示API的数据和医患对话数据集微调LLaMA原创 2023-07-05 10:45:26 · 19678 阅读 · 0 评论 -
ChatGLM两代的部署/微调/实现:从基座GLM、ChatGLM的LoRA/P-Tuning微调、6B源码解读到ChatGLM2的微调与实现
随着『GPT4多模态/Microsoft 365 Copilot/Github Copilot X/ChatGPT插件』的推出,绝大部分公司的技术 产品 服务,以及绝大部分人的工作都将被革新一遍类似iPhone的诞生 大家面向iOS编程 有了App Store现在有了ChatGPT插件/GPT应用商店,以后很多公司 很多人面向GPT编程(很快技术人员分两种,一种懂GPT,一种不懂GPT)然ChatGPT/GPT4基本不可能开源了,而通过上文《原创 2023-03-31 16:40:41 · 66122 阅读 · 21 评论 -
LLaMA的解读与其微调(含LLaMA 2):Alpaca-LoRA/Vicuna/BELLE/中文LLaMA/姜子牙
还开始研究一系列开源模型(包括各自对应的模型架构、训练方法、训练数据、本地私有化部署、硬件配置要求、微调等细节)该项目部分一开始是作为此文《》的第4部分,但但随着研究深入 为避免该文篇幅又过长,将把『第4部分 开源项目』抽取出来 独立成本文。原创 2023-03-22 14:45:28 · 78582 阅读 · 16 评论 -
详解带RLHF的类ChatGPT:从TRL、ChatLLaMA到ColossalChat、DSC
如果未提供模板,则使用默认模板artifacts/generate_rewards.py,注:所有模板都必须保存在一个名为 .json 的 JSON 文件中templates.json。其中列表包含多个dictionaries,每个dictionary 对应一个数据样本,建议使用超过 1000 个数据样本来进行对actor的训练。在获得最终模型权重后,还可通过量化降低推理硬件成本,并启动在线推理服务,仅需单张约 4GB 显存的 GPU 即可完成 70 亿参数模型推理服务部署。原创 2023-04-06 18:49:43 · 21826 阅读 · 12 评论 -
LLM/ChatGPT与多模态必读论文150篇(已更至第101篇)
2022年8月发布的Stable Diffusion基于Latent Diffusion Models,专门用于文图生成任务。总之,读的论文越多,博客内相关笔记的质量将飞速提升 自己的技术研究能力也能有巨大飞跃。且考虑到为避免上篇文章篇幅太长而影响完读率,故把这100论文的清单抽取出来独立成本文。// 23年2.27日起,本榜单几乎每天更新中。原创 2023-03-13 21:54:14 · 34057 阅读 · 13 评论 -
ChatGPT技术原理解析:从RL之PPO算法、RLHF到GPT4、instructGPT
本篇ChatGPT笔记会全力做到,通俗易懂且循序渐进(尽最大努力让每一个初学者哪怕是文科生都能没有障碍的读懂每一字一句、每一个概念、每一个公式)一方面,对于想了解ChatGPT背后原理和如何发展而来的,逐一阐述从GPT/GPT2/GPT3到强化学习、PPO算法,最后再到instructGPT、ChatGPT、SeqGAN且本文之前,99%的文章都不会把PPO算法从头推到尾,本文会把PPO从零推到尾,按照“RL-策略梯度-重要性采样(重要性权重)-TRPO(增加信任区域和KL散度约束)-PPO”的顺序逐步原创 2023-01-15 22:01:27 · 211808 阅读 · 139 评论 -
强化学习极简入门:通俗理解MDP、DP MC TD和Q学习、策略梯度、PPO
强化学习里面的概念、公式,相比ML/DL特别多,初学者刚学RL时,很容易被接连不断的概念、公式给绕晕,而且经常忘记概念与公式符号表达的一一对应(包括我自己在1.10日之前对好多满是概念/公式的RL书完全看不下去,如今都看得懂了,故如果读文本之前,你正在被RL各种公式困扰,相信看完这篇RL极简入门后就完全不一样了)。原创 2023-02-10 11:12:38 · 93936 阅读 · 151 评论