B143KC47-CSDN博客

原创 Knowledge Distillation 知识蒸馏

总结了知识蒸馏的背景技术等等

2025-08-25 20:04:16 1139

原创 # Qwen Code CLI：阿里巴巴用于软件开发的代理AI

阿里巴巴推出的Qwen Code CLI是一款基于Qwen3-Coder大模型的命令行工具，专为复杂编码任务设计。该工具源自谷歌Gemini CLI，通过定制提示和函数调用协议优化，支持256K至100万token的超长上下文处理。核心功能包括代码理解与编辑、工作流自动化、多轮交互调试等，支持358种编程语言。Qwen3-Coder采用4800亿参数的MoE架构，在预训练阶段使用7.5万亿token数据，后经强化学习优化，在SWE-Bench等基准测试中表现优异。安装简便，支持npm全局安装或源码构建

2025-07-23 16:26:59 1789 1

原创 MoE混合专家模型简介

混合专家模型（MoE）是一种通过稀疏计算提升模型效率的架构。它基于Transformer，用多个独立专家网络替代传统前馈层，配合门控网络动态选择专家。MoE能在减少计算量的情况下扩大模型规模，比如Switch Transformer仅激活部分专家，使320B参数的模型计算量接近8B稠密模型。关键创新包括：1）稀疏MoE层实现条件计算；2）Top-k门控机制平衡负载；3）层级式结构支持模型深度扩展。虽然MoE显著提升预训练效率（如Google的GShard实现6144专家），但也面临挑战：专家利用率不均衡、微

2025-06-05 03:25:22 1772

原创深度学习基础

本文推荐了数学理论和AI的优质学习资源，包括3Blue1Brown的线性代数、微积分和深度学习系列视频，以及可汗学院的多变量微积分课程。同时介绍了神经网络的基本原理，包括神经元结构、激活函数和梯度下降算法。文中详细解释了反向传播的工作机制，强调连续可微分输出对训练的重要性。最后提供Steam游戏《一个人工智能的诞生》作为互动学习工具，并列出相关技术文档参考资料。作者分享了自己从恐惧数学名词到被AI理论吸引的心路历程，鼓励视觉化学习方式。

2025-05-30 19:52:07 1279

原创 Transformer基础解释（非数学）

Transformer 架构源自 Google 研究团队在 2017 年发表的里程碑式论文《该模型最初是为了改进机器翻译任务而设计的，它引入的自注意力（Self-Attention）机制彻底改变了序列处理的方式。: OpenAI 发布。这是首批广为人知的大型预训练 Transformer 模型之一，采用架构。通过在大量文本上进行生成式预训练，GPT 在进行特定任务微调后，能够在多种 NLP 任务上取得优异表现，展示了预训练模型的巨大潜力。

2025-04-16 05:52:51 1648 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Knowledge Distillation 知识蒸馏

原创 # Qwen Code CLI：阿里巴巴用于软件开发的代理AI

原创 MoE混合专家模型 简介

原创 深度学习基础

原创 Transformer基础解释（非数学）

空空如也

空空如也

原创 MoE混合专家模型简介

原创深度学习基础