
swift微调框架源码解析
文章平均质量分 84
swift微调框架源码解析
强化学习曾小健
"强化学习曾小健2、强化学习曾小健3、我是机器人曾小健具身"都是该号副号。CSDN全站80强博客、总近480w+浏览。AI生成式技术,计算机博士;llama3、Baichuan2、Qwen、GLM-4等等项目贡献人(ArtificialZeng)。这个博客的主题主要是强化学习技术、AI生成式技术、大模型多模态技术、机器人具身智能控制技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
展开
-
swift跑起来了 多模态技术群聊备份
就是swift demo跑效果好,用intern 自己demo跑,效果差一些。是用的github上面放出来的fine-tune InternVL的代码吗。intervl,一直输出重复的,但是用huggingface。有人跑成功吗 我看issue里面有人说用swift跑起来了。swift命令sft internvl2,超参要怎么设置呀。根据尺寸动态的吧,他是看图片能切成多少个448×448。合并Lora,然后用intern的demo跑。官方有 2.0 微调的代码了吗。这个你具体指什么意思。原创 2024-07-24 08:46:48 · 261 阅读 · 0 评论 -
Qwen1.5-MoE开源,魔搭社区推理训练最佳实践教程来啦 swift框架
通义千问团队推出Qwen系列的首个MoE模型,Qwen1.5-MoE-A2.7B。原创 2024-06-26 20:13:07 · 1079 阅读 · 0 评论 -
swift 命令行参数
如果内存允许,建议设置为'ALL'。如果尚未注册,model_type则model_id_or_path必须同时指定 和 ,例如--model_type <model_type> --model_id_or_path <model_id_or_path>。--push_hub_strategy:推送策略,默认为'push_best'。原创 2024-07-26 21:02:00 · 3157 阅读 · 0 评论 -
NPU训练最佳实践 swift 华为昇腾npu
环境对齐 (通常不需要运行. 如果你运行错误, 可以跑下面的代码, 仓库使用最新环境测试)# 如果你想要使用deepspeed (控制显存占用,训练速度会有一定下降)通过如下命令启动单卡微调: (注意: 如果微调期间出现nan的情况, 请设置。# 安装ms-swift(当前推荐从源码安装, 待发版后可直接pip安装)# 实验环境: 4 * 昇腾910B3。# 实验环境: 4 * 昇腾910B3。# 实验环境: 4 * 昇腾910B3。# 显存需求: 4 * 22 GB。原创 2024-08-02 11:40:43 · 965 阅读 · 0 评论 -
swift/ui/llm_train/llm_train.py:swift微调框架源码解析:
pretrain/sft' 和 'rlhf',默认选择 'pretrain/sft',缩放比例为 3。第一个 GPU(设备 ID 为 0)方法,构建模型相关的 UI,传入。构建数据集相关的 UI,传入。手风琴内部创建一个行布局。GPU 数量并赋值给。设备设置为 CPU。原创 2024-07-20 03:11:58 · 409 阅读 · 0 评论 -
InternVL 最佳实践 swift微调
自定义数据集支持json, jsonl样式, 以下是自定义数据集的例子:(支持多轮对话, 图片支持传入本地路径或URL, 多张图片用逗号’,’分割)(支持纯文本数据)InternVL2模型除了以上数据格式外, 还支持多图多轮训练, 使用tag<image>标明图片在对话中的位置, 如果数据集中没有tag<image>, 默认放在最后一轮query的开头或者用表示图像路径和图像位置InternVL2模型支持视频数据集训练, 无需标明tagInternVL2。原创 2024-07-29 16:34:28 · 2520 阅读 · 0 评论 -
/swift/blob/main/swift/llm/utils/template.py[swift源码解析]
swift微调框架源码解析原创 2024-07-18 11:29:10 · 884 阅读 · 0 评论