- 博客(2415)
- 资源 (39)
- 收藏
- 关注
原创 2025年重磅喜讯! 喜报!热烈祝贺Gavin大咖人工智能领域经典著作《解码大模型原理与实战》机械工业出版社发行上市!来自产学研领域的四位专家联袂推荐
《解码大模型原理与实战》重磅上市!Gavin人工智能领域经典著作由机械工业出版社正式发行,获得产学研四位专家联袂推荐。该书深入解析大模型核心技术原理与应用实践,配有丰富图表说明,是AI从业者不可错过的专业指南。多位行业权威的背书彰显了本书的学术价值和实践指导意义,为人工智能领域研究与应用提供了重要参考。
2025-09-18 20:14:05
622
原创 2025年重磅喜讯!热烈祝贺Gavin大咖大模型领域经典著作《Transformer& Rasa 解密 原理、 源码及案例 》 北京航空航天大学出版社发行上市!
自2016年3月,阿尔法狗战胜人类围棋高手以来,人工智能技术取得了空前的成就,引领着人类社会进入了一个全新的时代。2017年7月,国务院正式发布了《新一代人工智能发展规划》,将人工智能发展明确为国家战略,为我国在这一领域的发展指明了方向。2023年2月,国务院发布了《数字中国建设整体布局规划》,提出到2025年,我们将基本形成横向打通、纵向贯通、协调有力的一体化推进格局,数字中国建设取得重要进展。到2035年,我们的数字化发展水平将进入世界前列,数字中国建设取得重大成就。
2025-01-26 19:00:00
1825
7
原创 2024年重磅喜讯!热烈祝贺Gavin大咖大模型领域经典著作《Transformer&ChatGPT解密:原理、源码及案例》 北京航空航天大学出版社发行上市!
2024年重磅喜讯!热烈祝贺Gavin大咖大模型领域经典著作《Transformer&ChatGPT解密:原理、源码及案例》 北京航空航天大学出版社发行上市!
2024-06-09 10:42:22
563
4
原创 2020年重磅喜讯!热烈祝贺王家林大咖人工智能及大数据领域经典著作《Apache Spark+AI全息代码解密》清华大学出版社发行上市!
2020年重磅喜讯!热烈祝贺王家林大咖人工智能及大数据领域经典著作《Apache Spark+AI全息代码解密》清华大学出版社发行上市!目录全息代码解密编辑推荐内容简介作者简介本书目录前言新书链接全息代码解密Apache Spark+AI全息代码解密(京东套装共2册)你需要的Apache Spark和AI技能都在这里!全程案例驱动无痛学习,动手创造自己AI框架,解密Alluxio, 抽丝剥茧学习Spark内核所有关键源码及实践优化的一切秘密https://item.jd.com/1302908
2020-12-12 09:52:10
1579
8
原创 2020年重磅喜讯!热烈祝贺王家林大咖人工智能领域经典著作《企业级AI技术内幕:深度学习框架开发+机器学习案例实战+Alluxio解密》 清华大学出版社发行上市!
2020年重磅喜讯!热烈祝贺王家林大咖人工智能领域经典著作《企业级AI技术内幕:深度学习框架开发+机器学习案例实战+Alluxio解密》 清华大学出版社发行上市!目录大咖心声新书图片内容简介作者简介目录前言/序言新书案例案例一:自研盘古人工智能框架案例二:基于Pytorch的自然语言处理模型(BERT)的应用案例案例三:人力资源主管正确评估新招聘员工薪水的案例案例四: 基于Alluxio+Pytorch的深度学习案例案例五:Spark+AI实战案例新书网购链接新书资讯大咖心声数据象征空间AI代理时间
2020-10-31 08:54:56
2816
2
原创 2020年重磅喜讯!热烈祝贺王家林大咖大数据经典传奇著作《Spark大数据商业实战三部曲》 畅销书籍第二版 清华大学出版社发行上市! 前浪致 Spark + AI 后浪
王家林大咖清华大学新书Spark第二版已上市:致 Spark + AI 初学者前言新书介绍编辑推荐内容简介作者简介精彩章节新书目录第二版前言第一版前言Spark+AI学习路径献给Spark+AI的“后浪”新书案例讲解第二版网购链接新书资讯前言欢迎来到清华大学出版社《Spark 大数据商业实战三部曲:内核解密|商业案例|性能调优(第2 版)》新书博客!关注到Spark新书发布的每一位同学,应该是学习了很多大数据的基础知识,学习了很多人工智能的技术资料,正在寻求进一步的自我成长。在学习过程中,一定是遇到了很
2020-05-25 11:08:23
2249
1
原创 2020年重磅喜讯!热烈祝贺王家林大咖大数据经典传奇著作《Spark大数据商业实战三部曲》 畅销书籍第二版 清华大学出版社发行上市!
《Spark大数据商业实战三部曲》第二版购书链接:https://item.jd.com/12864870.html
2020-05-22 16:27:07
1417
3
原创 2018年新春报喜!热烈祝贺王家林大咖大数据经典传奇著作《SPARK大数据商业实战三部曲》 畅销书籍 清华大学出版社发行上市!
2018年新春报喜!热烈祝贺王家林大咖大数据经典传奇著作《SPARK大数据商业实战三部曲》畅销书籍 清华大学出版社发行上市!本书基于Spark 2.2.0新版本,以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心,以Spark内核解密为基石,分为上篇、中篇、下篇,对企业生产环境下的Spark商业案例与性能调优抽丝剥茧地进行剖析。上篇基于Spark源码,从一个动手...
2018-02-13 19:47:15
7420
3
原创 硅谷可控大模型智能体 AI 关键技术
硅谷可控大模型智能体AI技术通过运行时治理机制(Middleware×Hooks×Time Travel)实现智能体的可观察、可干预和可审计。该技术融合强化学习(PPO、GRPO等算法)与智能体系统工程,结合Deep Agents与图计算,在多轮推理场景中施加结构化约束,防止目标漂移。课程涵盖主流模型(DeepSeek、Claude等)应用、LangGraph等工具链使用,以及安全对齐(Constitutional AI)、可解释AI等伦理规范,旨在构建行为可预测、决策可干预的智能体系统。关键技术包括TD学
2025-12-17 13:43:23
835
原创 SFTConfig总结及大模型微调
本文介绍了大模型微调中的SFTConfig配置、保存与合并适配器、上传模型到Hugging Face Hub以及注意力机制的核心原理。主要内容包括: 提供了标准SFTConfig配置模板,包含训练参数、批处理、日志记录等关键设置,并建议启用混合精度训练; 详细说明了保存适配器的方法及生成的文件内容(约6MB),并指出不同模型的分词器文件可能不同; 重点讲解了完整模型保存的挑战:需先反量化基础模型再合并LoRA层,推荐使用AutoPeftModelForCausalLM类处理; 演示了如何将模型上传至Hugg
2025-10-23 19:00:00
72
原创 混合精度参数说明及数据集相关参数(121)
本文介绍了深度学习模型训练中的关键参数设置,分为混合精度、数据集和训练参数三部分。混合精度部分解释了FP16、BF16和FP32的适用场景及内存影响;数据集参数重点说明了最大序列长度的设置原则及其对内存使用的影响;训练参数部分详细讲解了训练时长、学习率、优化器选择等关键配置。文章还涵盖了日志记录、模型保存等辅助功能参数,并提供了典型场景下的参数推荐值。特别强调了最大序列长度和混合精度选择对内存使用的影响,以及如何避免OOM错误。
2025-10-14 19:00:00
99
原创 大模型SFTTrainer微调-损失值(loss)解析(118)
该文章介绍了使用SFTTrainer进行大模型微调的过程,重点分析了训练损失值偏高的问题。作者展示了如何配置训练器参数(如开启填充策略、设置最大序列长度),并执行训练。训练结果显示损失值偏高,测试效果不理想。文章随后探讨了可能的原因,包括学习率、批量大小和训练轮次等默认参数设置,并展示了训练器的实际配置和自动创建的优化器实例。最后提出了关于训练循环底层实现的问题,为进一步优化模型性能留下思考空间。
2025-10-13 19:00:00
122
原创 使用 SFTTrainer 进行微调(119)
顺便提一句,你有没有好奇过训练循环(training loop)在底层是怎么运行的?如你所见,所有流程阶段都包含在内了。这和我们习惯用纯 PyTorch 手写的传统训练循环(training loop)几乎没什么差别。创建训练器实例后,提取一个小批量数据(mini-batch),以确认数据整理器(collator)配置正确且标签符合预期。好在现在我们不用再操心这些细节了,相反,我们可以把精力集中在确保配置(configuration)无误这件事上。参数指定自定义格式化函数(即第四讲中的BYOFF)。
2025-10-13 19:00:00
74
原创 SFT配置(SFTConfig)及find_max_batch_size解析 (120)
SFTConfig提供了五大类参数配置,包括内存优化、混合精度、数据集、常规训练和环境日志。其中内存优化参数是关键,通过梯度检查点技术(gradient_checkpointing)和灵活的批量大小调节(gradient_accumulation_steps)实现计算与内存的平衡。为解决预设批次大小与实际硬件承载能力的矛盾,文中提供了一个智能函数find_max_batch_size,它能自动测试并找到GPU可支持的最大微批量大小,避免手动调试OOM错误。该函数通过创建虚拟训练器、设置零学习率和逐步二分搜索
2025-10-13 19:00:00
186
原创 填充标记左填充及标签只包含补全内容解析(117)
摘要:本文介绍了在使用低端GPU且无Flash Attention 2时,针对不同训练需求(同时训练提示和补全或仅训练补全)的参数设置方法。重点说明了如何通过设置packing、data_collator和tokenizer.padding_side等参数来优化训练过程,并通过示例代码展示了数据加载和验证标签正确性的具体步骤。最后确认所有配置正确,模型已准备好进行训练。
2025-10-11 19:00:00
211
原创 大模型微调 SFTTrainer 数据处理与训练器配置解析(116)
遗憾的是,许多重要的数据集相关参数(第 4 讲中也已涉及)—— 例如最大序列长度(max_seq_length)、打包(packing)以及数据集文本字段(dataset_text_field)—— 已从 SFTTrainer 中废弃(deprecated),转而迁移到了 SFTConfig 类中。在我看来,若能将这些参数 —— 连同格式函数(formatting_func)和数据拼接器(data_collator)参数 —— 全部集中在同一处(即 SFTTrainer 中),会更符合用户使用习惯。
2025-10-11 12:34:25
460
原创 大模型激活值相关公式说明(114)
本文介绍了Transformer模型中激活值内存计算的公式来源,源于Korthikanti等人的论文。关键公式显示激活值内存与序列长度平方成正比,而采用Flash Attention技术可消除这一项。文章还对比了标准Transformer和优化后模型的内存占用比例计算公式。此外,总结了数据处理的关键注意事项:需保持与分词器模板一致,避免EOS token与padding token混淆,以及谨慎修改嵌入层维度。最后提供了OPT-350M模型的量化配置、PEFT微调设置和数据集处理示例代码。术语表解释了注意力
2025-10-10 19:00:00
328
原创 基于SFTTrainer的微调(Fine-Tuning)(115)
本文介绍了使用SFTTrainer进行模型微调的方法。SFTTrainer简化了微调流程,只需提供模型、分词器、数据集和配置对象四个基本参数即可。文章将参数分为三类:模型相关(模型、分词器、LoRA配置)、数据集相关(训练/验证集、格式化函数)和训练相关(配置对象、优化器)。同时解释了SFTTrainer、LoRA等关键术语,并指出这些内容已在前期环节中讲解过,下文将重点探讨训练参数的配置。文章还提到可以构建"最小可行训练器"来简化操作流程。
2025-10-10 19:00:00
240
原创 大模型激活值所占用的内存与序列长度、模型维度的解析
如前图所示,若序列长度约为模型维度的四分之一,那么 16 位精度激活值所占用的空间,将是 8 位模型(占用空间)的 2.5 倍。需注意,(计算过程中)存在两项数值(即上述数值示例中的 27 和 18):其中第一项的数值是我们无法改变的,但第二项的数值则可通过优化消除。实际情况是,激活值所占用的内存(相较于基础模型占用的内存),在很大程度上取决于序列长度与模型维度的比值(同时也与注意力头数量相关)。若序列更短(例如,长度仅为模型维度的四分之一),则激活值所需占用的空间会显著减少,如下图所示。
2025-10-09 19:00:00
94
原创 大模型内存优化技术总结
大模型内存优化技术主要包括:1)基础模型量化与优化器量化,降低参数精度;2)LoRA低秩适配,减少可训练参数;3)梯度累积分批计算;4)梯度检查点牺牲速度换内存。这些技术可组合使用,其中模型量化+LoRA是推荐基础方案,梯度检查点作为最后手段。实际应用需结合硬件支持(如优先使用Flash Attention 2)和模型特性(新旧模型默认配置不同)。各项技术对训练各阶段影响存在交互,例如梯度累积会抵消8位优化器的内存收益。图示展示了关键技术如何作用于GPU显存的不同训练阶段。
2025-10-09 19:00:00
206
原创 大模型梯度累积与梯度检查点(112)
本文讨论了处理长序列训练时的内存优化方案。当序列长度增加时,注意力机制的内存需求会快速增长,可通过Flash Attention 2等技术实现线性内存占用。针对显存不足的情况,建议采用梯度累积技术,通过多个微批次累积梯度再更新参数。最极端情况下可使用梯度检查点技术,以计算时间换取内存空间,即使老旧显卡也能训练大模型。这些方法共同构成了在有限硬件条件下训练大模型的关键技术路径。
2025-10-09 12:43:46
83
原创 解密LLM GPT Decoding全生命周期及代码实现(Logits、 Softmax、Tempreture、Sampling、Top-K采样)
本文解析了LLM GPT的解码全生命周期及代码实现过程,包括Logits处理、Softmax归一化、温度调节、采样策略及Top-K采样等关键步骤。视频详细演示了如何通过这些技术控制语言模型的输出多样性与准确性,为开发者提供了实用的代码实现参考。该内容适合对大型语言模型生成机制感兴趣的技术人员学习。
2025-09-30 21:10:03
511
原创 大模型训练流程及GPU内存解析(110)
本文介绍了深度学习模型训练的基本流程及各阶段内存需求特点。训练过程主要分为:加载模型、前向传播、梯度计算、参数更新和梯度重置五个阶段。其中反向传播阶段(阶段2)和优化器更新(阶段3)是内存消耗的关键环节。文章重点分析了Transformer架构中注意力机制的内存占用与序列长度呈平方关系的问题,指出这是导致OOM(内存不足)错误的主要原因。同时讨论了量化优化器和LoRA技术对减少内存占用的作用,特别说明即使使用LoRA减少可训练参数,冻结层在前向传播和反向传播中仍会产生必要的激活值计算。最后强调合理设置批量大
2025-09-30 19:00:00
83
转载 “AI+“行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地
AI+"行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地 GPT-OSS 一可控AI目前全球唯一开源解决方案。
2025-09-29 19:08:59
92
转载 “AI+“行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地
AI+"行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地 GPT-OSS 一可控AI目前全球唯一开源解决方案。
2025-09-29 19:08:59
78
转载 “AI+“行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地
AI+"行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地 GPT-OSS 一可控AI目前全球唯一开源解决方案。
2025-09-29 19:08:59
77
转载 “AI+“行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地
AI+"行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地 GPT-OSS 一可控AI目前全球唯一开源解决方案。
2025-09-29 19:08:59
78
转载 “AI+“行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地
AI+"行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地 GPT-OSS 一可控AI目前全球唯一开源解决方案。
2025-09-29 19:08:59
83
转载 “AI+“行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地
AI+"行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地 GPT-OSS 一可控AI目前全球唯一开源解决方案。
2025-09-29 19:08:59
67
转载 “AI+“行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地
AI+"行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地 GPT-OSS 一可控AI目前全球唯一开源解决方案。
2025-09-29 19:08:59
76
转载 “AI+“行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地
AI+"行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地 GPT-OSS 一可控AI目前全球唯一开源解决方案。
2025-09-29 19:08:59
63
转载 “AI+“行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地
AI+"行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地 GPT-OSS 一可控AI目前全球唯一开源解决方案。
2025-09-29 19:08:59
45
转载 “AI+“行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地
AI+"行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地 GPT-OSS 一可控AI目前全球唯一开源解决方案。
2025-09-29 19:08:59
72
转载 “AI+“行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地
AI+"行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地 GPT-OSS 一可控AI目前全球唯一开源解决方案。
2025-09-29 19:08:59
101
转载 “AI+“行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地
AI+"行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地 GPT-OSS 一可控AI目前全球唯一开源解决方案。
2025-09-29 19:08:59
82
转载 “AI+“行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地
AI+"行动下的可控智能体:GPT-5 与 GPT-OSS 高性能推理 安全可控 产业落地 GPT-OSS 一可控AI目前全球唯一开源解决方案。
2025-09-29 19:08:59
68
Rasa对话机器人连载一 第121课:Rasa对话机器人Debugging项目实战之电商零售对话机器人运行流程调试全程演示-1
2022-04-20
Rasa对话机器人连载二 第121课:Rasa对话机器人Debugging项目实战之电商零售对话机器人运行流程调试全程演示-2
2022-04-20
Rasa对话机器人连载四 第121课:Rasa对话机器人Debugging项目实战之电商零售对话机器人运行流程调试全程演示-4
2022-04-21
Rasa对话机器人连载七 第122课:Rasa对话机器人Debugging项目实战之银行金融对话机器人全生命周期调试实战-(三)
2022-04-21
Rasa对话机器人Debugging项目实战之电商零售、银行金融、保险行业、教育领域对话机器人第121课-第128课学习笔记
2022-04-21
Rasa对话机器人连载十二 第124课:Rasa对话机器人Debugging项目实战之保险行业调试全程实战解密(三).rar
2022-04-21
Rasa对话机器人连载十九 第126课:Rasa对话机器人Debugging项目实战之教育领域项目调试 解密(二).pdf
2022-04-21
Rasa对话机器人连载十三 第124课:Rasa对话机器人Debugging项目实战之保险行业调试全程实战解密(四).pdf
2022-04-21
第123课:Rasa对话机器人Debugging项目实战之图解银行金融案例架构视角下的Training及Reference全生命
2022-04-08
第121课:Rasa对话机器人Debugging项目实战之电商零售对话机器人运行流程调试全程演示-1
2022-03-20
第121课:Rasa对话机器人Debugging项目实战之电商零售对话机器人运行流程调试全程演示-4
2022-03-20
第122课:Rasa对话机器人Debugging项目实战之银行金融对话机器人全生命周期调试实战
2022-03-29
第121课:Rasa对话机器人Debugging项目实战之电商零售对话机器人运行流程调试全程演示
2022-03-29
tensorflow-1.15.0-cp36-cp36m-win_amd64.whl
2020-09-01
fr-en.tgz https://www.statmt.org/ europarl/v7/fr-en.tgz
2021-09-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅