
大语言模型LLM应用/领域微调sft
文章平均质量分 86
大语言模型LLM应用-领域微调或角色化
强化学习曾小健
"强化学习曾小健2、强化学习曾小健3、我是机器人曾小健具身"都是该号副号。CSDN全站80强博客、总近480w+浏览。AI生成式技术,计算机博士;llama3、Baichuan2、Qwen、GLM-4等等项目贡献人(ArtificialZeng)。这个博客的主题主要是强化学习技术、AI生成式技术、大模型多模态技术、机器人具身智能控制技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
展开
-
可怕!llm训练的bug,梯度累计设置过大,会导致最终loss过大。
那么,交叉熵 loss 会先为 batch 内每一个 target token 计算一个 loss,然后相加,最后除以这个 batch 内所有 target token 的总数 I。micro batch 维度,分母是这个 micro batch 中的所有 label 不是 -100 的 token 数(不同 token 之间 loss 的平均)因此计算完,所有的目标 token 的 loss,加和之后,再除以实际目标 token 总数,这样,在 token 维度都是等权的,不受长度影响。原创 2024-10-26 17:37:30 · 53 阅读 · 0 评论 -
预测式AI即将来到,你准备好了么?
当 life2vec 尝试预测你的未来时,如你的健康状况或可能的工作类型时,它会参考这个快照中的数据。它不仅关注一些显而易见的信息,如你的年龄、自我保健情况或收入,也能察觉到一些不太明显的细节,如你的工作类型及其对未来可能的影响。预测式 AI 的未来也会如此吗?同样,预测式 AI 的预测可能受到历史数据固有偏见的影响,导致不准确或误导性的未来预测,这可能会导致基于错误建议的糟糕规划或潜在的灾难性结果。这些预测可能引发新的问题,并引导你探索以前未曾考虑过的领域,帮助你理解这些 AI 对你未来预测背后的原因。原创 2024-04-22 13:57:23 · 838 阅读 · 0 评论 -
sft的时代过去了?融合监督微调和偏好对齐的新算法orpo来了
ORPO是一种的新的微调技术,将传统的监督微调和偏好对齐阶段结合到一个过程中。这减少了训练所需的计算资源和时间。在上面链接中有个colab实现了使用orpo微调llama3-8b。日更,近3天较实用的论文速读,这里的选文真的很干很前沿!虽然 SFT 有效地使模型适应所需的领域,但它无意中增加了与。对比最上面一张图训练过程中y_w和y_l的gap出现了。实现原理非常简单,如下图,在正常的sft损失基础上,上OPT-350M模型中选择和拒绝答案的对数概率。和拒绝输出的可能性之间的差距。的概率要远大于y_l。原创 2024-04-20 23:19:48 · 467 阅读 · 0 评论 -
Llama 3 微调项目实践与教程(XTuner 版)
到此为止我们就让 Llama3 具备了“他是由SmartFlowAI 打造的人工智能助手”的个人认知,本文演示平台为 InternStudio,如其他平台只需适当调整相关路径也能比较顺畅的运行起来,XTuner 玩转 Llama3 图片理解更多玩法请参考:https://github.com/SmartFlowAI/Llama3-XTuner-CN/ (欢迎 Star),同时本周天晚 8 点我们邀请了书生·浦语众多社区大佬一起来分享,欢迎预约直播一起讨论。或者软链接 InternStudio 中的模型。原创 2024-04-20 19:24:11 · 1482 阅读 · 1 评论 -
Llama-Factory 简介 二, 脚本详解 LLaMA-Factory/src/train_bash.py LLaMA-Factory/src/llmtuner/train/pt/workfl
│ ├── single_node.sh: 使用 Accelerate 进行单节点 LoRA 训练。│ ├── pretrain.sh: 基于 LoRA 进行增量预训练。│ ├── reward.sh: 基于 LoRA 进行奖励模型训练。│ ├── orpo.sh: 基于 LoRA 进行 ORPO 训练。│ ├── ppo.sh: 基于 LoRA 进行 PPO 训练。│ ├── dpo.sh: 基于 LoRA 进行 DPO 训练。原创 2024-04-17 15:36:07 · 2419 阅读 · 0 评论 -
Llama-Factory简介 github介绍页
可选的额外依赖项:deepspeed、metrics、unsloth、galore、vllm、bitsandbytes、gptq、awq、aqlm、qwen、modelscope、quality。[23/09/23] 我们在项目中集成了 MMLU、C-Eval 和 CMMLU 评估集。如果您在 Hugging Face 模型和数据集的下载中遇到了问题,可以通过下述方法使用魔搭社区。部分数据集的使用需要确认,我们推荐使用下述命令登录您的 Hugging Face 账户。如果您感兴趣请关注我们的。原创 2024-04-17 14:54:56 · 945 阅读 · 0 评论 -
Baichuan-Qwen-Llama微调源码解析 /src/api_demo.py
这通常指的是FastAPI提供的自动生成的Swagger UI文档。我们暂时不知道这两者的确切功能,但从名称可以推测,ChatModel可能是与聊天模型相关的类,而create_app可能是用于创建ASGI应用实例的函数。此函数的返回值(可能是一个ASGI应用实例)被存储在app变量中。# 这是一个Python的常见模式,确保当此脚本作为主程序运行时(而不是作为一个模块导入时)下面的代码会被执行。应用将在所有可用的IP地址(0.0.0.0意味着监听所有接口)上的8000端口上运行,并使用1个工作进程。原创 2023-08-15 17:30:34 · 714 阅读 · 0 评论 -
Chat凉宫春日 Chat-Haruhi-Suzumiya 大模型个性化 人格化
是模仿凉宫春日等一系列动漫人物,使用近似语气、个性和剧情聊天的语言模型,本项目由李鲁鲁,冷子昂,闫晨曦,封小洋,scixing,沈骏一,Aria Fei, 米唯实, 吴平宇, 贾曜恺等开发。本项目是一个,本项目中的代码和工具,也支持其他动漫人物的建立。目前初步支持凉宫春日、李云龙、于谦和神里绫华,正在增加更多角色。本项目的核心思想是在prompt构造的时候利用,对经典剧情进行了搜索,作为Fewshot(或者说更接近CoT)的构造标准。Chat凉宫春日是。原创 2023-08-01 15:23:22 · 974 阅读 · 0 评论 -
使用医患对话数据训练新冠诊疗模型的例子 ChatGLM Sft RLHF
本案例目的仅在于介绍利用项目框架进行 SFT+RLHF 的模型微调流程,微调结果不用于任何商业目的,且不保证模型的可靠性。原创 2023-07-01 16:02:20 · 1659 阅读 · 8 评论 -
ChatGLM2-6B 训练参数解释
在深度学习中,我们通常不会同时处理所有的训练样本,而是将它们分成“批次”进行处理。在这个例子中,每个设备上的即时批量大小为4,意味着每个设备一次处理4个样本。这可能意味着在多个设备上同时进行训练,每个设备处理一部分批次,然后把这些批次加起来,总和为16。: 这是模型中可以通过训练改变的参数的数量。: 一个epoch指的是模型在训练过程中遍历整个训练集一次。: 这表示在你的训练集中有243个样本,即243个独立的数据点用于训练模型。: 梯度累积是一种在内存不足的情况下训练大模型的技巧。原创 2023-06-28 11:43:37 · 4093 阅读 · 1 评论 -
论文笔记 Prefix-Tuning: Optimizing Continuous Prompts for Generation》
GPT-3可以在不进行任何特定于任务的微调的情况下部署,即用户在任务输入前添加一个自然语言任务指令和一些示例,然后从LM生成输出。这种方法被称为情境学习(in-context learning)或提示(prompting)。原创 2023-06-27 14:01:48 · 343 阅读 · 0 评论 -
ChatGLM2-6B源码解析 web_demo.py
这个界面包括一个聊天机器人,一个用户输入框,一个提交按钮,一个清空历史按钮,以及一些滑块用于控制模型的参数。总的来说,这是一个使用预训练的模型来生成对话的聊天机器人的程序,它有一个简单的用户界面,用户可以通过这个界面和机器人进行交流。函数接受用户的输入和一些模型参数,它首先把用户的输入添加到聊天记录中,然后用模型生成回复,最后返回聊天记录和新的历史记录。实例化的提交按钮,这会触发绑定到按钮上的函数,把用户的输入提交到聊天机器人,并接收聊天机器人的回应。,这些对象用于保存聊天的历史记录和模型的内部状态。原创 2023-06-26 19:33:54 · 4516 阅读 · 0 评论 -
ChatGLM ptuning-v2 训练参数解析
是一个命令行命令,将可见的GPU设备设置为设备编号为0的设备,并使用Python 3解释器运行名为"main.py"的Python程序。: 指定输出目录的路径和名称为"output/adgen-chatglm-6b-pt-$PRE_SEQ_LEN-$LR"。:指定输出目录的路径和名称为"output/adgen-chatglm-6b-pt-$PRE_SEQ_LEN-$LR",其中。的变量,并将其设置为2e-2,即0.02。:指定使用的模型的名称或路径为"THUDM/chatglm-6b"。原创 2023-06-26 17:12:50 · 1776 阅读 · 1 评论 -
ChatGLM-Tuning/finetune.py 源码解析 ChatGLM LoRA tuning
然后,在训练过程中或训练完成后,可以使用 TensorBoard 工具来查看这些信息,以便于理解模型训练的过程和效果,调整模型的参数和训练策略。这样,用户可以在TensorBoard的可视化界面中实时观察到模型训练过程中的各项指标,如损失函数值的变化情况、各项评估指标的变化情况等。和对应的标签,它们都是PyTorch的LongTensor类型,长度都与最长的“input_ids”的长度相同。的“input_ids”进行填充,使其长度与最长的“input_ids”的长度相同,填充的元素是。原创 2023-06-23 17:58:00 · 677 阅读 · 1 评论 -
对 ChatGLM-6B 做 LoRA fine tuning
构建之前,我们先定义几个特殊 Token 常量:12345PYTHON将这几个值打印出来:12345PYTHON得到如下结果:12345ABNF我们也可以直接用这个常量结果替换动态计算的部分。常量修改后的结果变成:12345PYTHON除了上面定义的 Token 常量,我们还需要定义模型训练绑定的设备名,以及最大输入长度和最大输出长度等,如下:123PYTHON开发者可以结合自己的显卡性能和要处理的数据集特点来确定这些最大长度。原创 2023-06-23 14:37:03 · 595 阅读 · 1 评论 -
区别探索:掩码语言模型 (MLM) 和因果语言模型 (CLM)的区别
预训练的目标是利用大量未标记的文本并构建语言理解的通用模型,然后针对各种特定的 NLP 任务(例如机器翻译、文本摘要等)进行微调。例如 - Alpha=1 会给周围的单词赋予相同的权重(这意味着每个单词都将具有相同的权重)对学习到的 MASK 表示的贡献)。在屏蔽语言模型下,我们通常屏蔽给定句子中一定比例的单词,并且模型预计会根据该句子中的其他单词来。另外,直观上这是有道理的,因为在学习每个单词的良好输入表示时,您会想知道。的分布,您可以权衡每个其他输入单词的表示,以学习屏蔽单词的表示,原创 2023-06-23 14:24:22 · 6415 阅读 · 0 评论 -
CTRL,Control Transformer可控文本生成技术详解
对于控制信号,可以像 L2W 和 PPLM 选择属性判别器的似然概率;也可以同 CTRL 一样设计 Prompts 和 control codes;或者可以像 GSum 引入句、词、段落、三元组等多种形式的内容。对于将控制信号反馈给模型的方式,可以如 PPLM 般基于梯度上升,也可以像 GeDi 直接修改单词表上的概率分布,或者同 Hafez 一样从 Beam Search 入手,将判别器给出的得分反馈到似然得分上。然而,即使合理地引入了控制信号,也无法保证可控性能。原创 2023-06-23 13:59:46 · 1013 阅读 · 0 评论 -
论文阅读-自指导self instruct:将语言模型与自生成的指令相结合
大型“指令微调”语言模型(经过微调以响应指令)已经证明了将zero-shot推广到新任务的非凡能力。然而,它们在很大程度上依赖于数量、多样性和创造性有限的人工书面指令数据,因此阻碍了调优模型的通用性。论文引入了,这是一个通过自举生成来提高预训练语言模型的指令跟随能力的框架。论文的pipline从语言模型中生成指令、输入和输出样本,然后在使用它们来微调原始模型之前对它们进行修剪。将论文的方法应用于变体GPT3,证明了在超自然指令上比原始模型有33%的绝对改进。原创 2023-06-23 11:49:28 · 861 阅读 · 1 评论 -
AI-LLM人物访谈:Noam Shazeer 是 Google 的前 200 号员工,Character.AI:AI Agents 平台下的大模型“民主化”梦想
Character.AI 同时也是目前个性化 AI 聊天机器人赛道技术能力最强的团队:创始人 Noam Shazeer 是 Google 的前 200 号员工,在 Google 工作的 17 年中,他参与了 Google 的一系列 AI 项目和研究,是 Attention is All You Need 的核心作者以及 Google LaMDA 项目的核心成员。很多用户使用 Character.AI 的原因是他们很孤独或遇到了麻烦,需要有人交谈,但在现实生活中因为各种原因无法找到可交谈的人。原创 2023-06-23 11:36:08 · 1320 阅读 · 0 评论 -
OpenAI官方:Inworld 使用 GPT-3 使下一代角色更具吸引力。为非玩家角色的“大脑”提供动力
众所周知,初创公司需要一个小而强大的团队来运作,因此我们希望确保我们团队的时间集中在能够帮助我们突破故事讲述和角色个性界限的技术上,”吉布斯说。“有了 GPT-3,我们就有了更多的时间和创造力来投资我们的专有技术,为下一代 NPC 提供动力。丰富、细致入微且写得好的人物是任何好故事的核心部分。使用Inworld,创作者可以在几分钟内让一个不可玩的角色(俗称NPC)栩栩如生,使用自然语言来描述角色的个性。有了 GPT-3,我们有更多的时间和创造力来投资我们为下一代 NPC 提供动力的专有技术。原创 2023-06-23 11:13:45 · 185 阅读 · 0 评论