- 博客(5)
- 收藏
- 关注
原创 # Qwen Code CLI:阿里巴巴用于软件开发的代理AI
阿里巴巴推出的Qwen Code CLI是一款基于Qwen3-Coder大模型的命令行工具,专为复杂编码任务设计。该工具源自谷歌Gemini CLI,通过定制提示和函数调用协议优化,支持256K至100万token的超长上下文处理。核心功能包括代码理解与编辑、工作流自动化、多轮交互调试等,支持358种编程语言。Qwen3-Coder采用4800亿参数的MoE架构,在预训练阶段使用7.5万亿token数据,后经强化学习优化,在SWE-Bench等基准测试中表现优异。安装简便,支持npm全局安装或源码构建
2025-07-23 16:26:59
1789
1
原创 MoE混合专家模型 简介
混合专家模型(MoE)是一种通过稀疏计算提升模型效率的架构。它基于Transformer,用多个独立专家网络替代传统前馈层,配合门控网络动态选择专家。MoE能在减少计算量的情况下扩大模型规模,比如Switch Transformer仅激活部分专家,使320B参数的模型计算量接近8B稠密模型。关键创新包括:1)稀疏MoE层实现条件计算;2)Top-k门控机制平衡负载;3)层级式结构支持模型深度扩展。虽然MoE显著提升预训练效率(如Google的GShard实现6144专家),但也面临挑战:专家利用率不均衡、微
2025-06-05 03:25:22
1772
原创 深度学习基础
本文推荐了数学理论和AI的优质学习资源,包括3Blue1Brown的线性代数、微积分和深度学习系列视频,以及可汗学院的多变量微积分课程。同时介绍了神经网络的基本原理,包括神经元结构、激活函数和梯度下降算法。文中详细解释了反向传播的工作机制,强调连续可微分输出对训练的重要性。最后提供Steam游戏《一个人工智能的诞生》作为互动学习工具,并列出相关技术文档参考资料。作者分享了自己从恐惧数学名词到被AI理论吸引的心路历程,鼓励视觉化学习方式。
2025-05-30 19:52:07
1279
原创 Transformer基础解释(非数学)
Transformer 架构源自 Google 研究团队在 2017 年发表的里程碑式论文《该模型最初是为了改进机器翻译任务而设计的,它引入的自注意力(Self-Attention)机制彻底改变了序列处理的方式。: OpenAI 发布。这是首批广为人知的大型预训练 Transformer 模型之一,采用架构。通过在大量文本上进行生成式预训练,GPT 在进行特定任务微调后,能够在多种 NLP 任务上取得优异表现,展示了预训练模型的巨大潜力。
2025-04-16 05:52:51
1648
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅