- 博客(8)
- 资源 (2)
- 收藏
- 关注
原创 LIFT框架:让短上下文LLM也能理解超长文本
论文标题:LIFT: Improving Long Context Understanding through Long Input Fine-Tuning机构:多机构联合研究(待更新)
2025-06-07 00:57:07
1728
原创 全模态模型对齐新范式:Align Anything框架
Align Anything通过语言反馈这一创新机制,首次实现了全模态模型与人类意图的深度对齐,为多模态大模型的发展提供了数据、算法与评估的完整解决方案。随着开源生态的完善(代码与数据集已开源至GitHub),这一框架有望推动通用人工智能在教育、医疗、娱乐等多领域的落地,让机器真正“听懂、看懂、理解”人类世界。参考资料。
2025-06-07 00:56:09
666
原创 LLM-next:扩散大语言模型LLaDA
前向过程:对输入序列x0x\_0x_0逐步随机掩码(mask),在时间时: qt|0(xti|x0i)={1−t,xti=x0it,xti=M(8)MMM为掩码符号,t1t=1t1时序列完全掩码)反向过程:训练掩码预测器(Transformer)重构原始文本: L(θ)=−Et,x0,xt[1t∑i=1L1[xti=M]logpθ(x0i|xt)](3)图1:LLaDA预训练/SFT/推理流程。预训练时全序列随机掩码;SFT时仅掩码答案;推理时从全掩码状态逐步预测。
2025-06-07 00:55:15
1960
原创 易用昇腾(二):四机32卡基于MindSpeed-RL进行Qwen32B GRPO训练
使用昇腾平台结合MindSpeed-RL进行大模型的强化学习训练,是提升模型能力的重要途径。此前分享了单机八卡使用MindSpeed-RL进行Qwen-7B模型训练的。本节聚焦于四机32卡环境下,基于MindSpeed-RL进行Qwen-32B GRPO训练的过程,重点分享在实际复现过程中遇到的问题、原因分析以及解决方法,希望能为广大开发者提供参考。Qwen - 32B 使用 GRPO 强化学习的详细教程已发布在上。在按照教程进行四机 32 卡的实际训练过程中,我们同样遇到了一些问题,以下是详细记录。
2025-06-07 00:53:47
1097
1
原创 易用昇腾(一):单机八卡使用MindSpeed-RL进行Qwen-7B模型GRPO训练
在昇腾 AI 生态的实践中,利用 MindSpeed-RL 工具链进行大模型强化训练是提升模型数学推理能力的关键路径。官方已发布详细的,本文聚焦单机八卡环境下复现-Qwen2.5-7B 过程中的真实 Debug 经历,为开发者提供避坑指南。
2025-06-07 00:52:47
1877
原创 昇腾MindIE+QwQ-32B实现动态策略规划
具身智能机器人(如家庭服务机器人)需将“整理房间”等抽象指令拆解为“抓取物品→分类存储→路径避障”等子任务。QwQ-32B通过两阶段强化学习,可将任务拆解准确率提升至92%(对比传统模型提升35%)。在自动驾驶场景中,车辆需在0.1秒内完成对行人、车辆、障碍物的多模态感知,并实时调整行驶轨迹。传统固定策略无法应对突发路况(如紧急刹车或变道),而动态规划可通过强化学习模型实现毫秒级响应。工业机械臂在装配任务中需同步处理视觉(零件位置)、力学(抓取力度)、时序(动作顺序)等多维度信息。动态策略规划通过融合。
2025-06-07 00:51:38
823
原创 基于昇腾NPU实现LeRobot学习框架指南
本方案验证了昇腾 NPU 在机器人学习领域的应用潜力。随着 Hugging Face 生态与国产硬件的深度融合,期待看到更多开发者基于此框架创造出突破性的机器人应用。完整代码示例可访问 LeRobot 官方仓库 获取。
2025-06-07 00:48:52
831
原创 tensorflow个人学习笔记
1.关于简介安装部分没什么好说的,我已经安装好了;2.神经网络的前向传播可以理解为是就是数据特征与矩阵的乘法(矩阵是各层神经元之间的权重矩阵),使用tf.matmul通过矩阵乘法进行表达;3.变量声明函数tf.Variable,初始化某个变量,...
2018-05-11 21:59:01
299
Python语言在Abaqus中的应用.pdf
2016-12-30
视觉slam十四讲从理论到实践 代码
2017-11-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅