自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Knowledge Distillation 知识蒸馏

总结了 知识蒸馏的背景 技术等等

2025-08-25 20:04:16 1139

原创 # Qwen Code CLI:阿里巴巴用于软件开发的代理AI

阿里巴巴推出的Qwen Code CLI是一款基于Qwen3-Coder大模型的命令行工具,专为复杂编码任务设计。该工具源自谷歌Gemini CLI,通过定制提示和函数调用协议优化,支持256K至100万token的超长上下文处理。核心功能包括代码理解与编辑、工作流自动化、多轮交互调试等,支持358种编程语言。Qwen3-Coder采用4800亿参数的MoE架构,在预训练阶段使用7.5万亿token数据,后经强化学习优化,在SWE-Bench等基准测试中表现优异。安装简便,支持npm全局安装或源码构建

2025-07-23 16:26:59 1789 1

原创 MoE混合专家模型 简介

混合专家模型(MoE)是一种通过稀疏计算提升模型效率的架构。它基于Transformer,用多个独立专家网络替代传统前馈层,配合门控网络动态选择专家。MoE能在减少计算量的情况下扩大模型规模,比如Switch Transformer仅激活部分专家,使320B参数的模型计算量接近8B稠密模型。关键创新包括:1)稀疏MoE层实现条件计算;2)Top-k门控机制平衡负载;3)层级式结构支持模型深度扩展。虽然MoE显著提升预训练效率(如Google的GShard实现6144专家),但也面临挑战:专家利用率不均衡、微

2025-06-05 03:25:22 1772

原创 深度学习基础

本文推荐了数学理论和AI的优质学习资源,包括3Blue1Brown的线性代数、微积分和深度学习系列视频,以及可汗学院的多变量微积分课程。同时介绍了神经网络的基本原理,包括神经元结构、激活函数和梯度下降算法。文中详细解释了反向传播的工作机制,强调连续可微分输出对训练的重要性。最后提供Steam游戏《一个人工智能的诞生》作为互动学习工具,并列出相关技术文档参考资料。作者分享了自己从恐惧数学名词到被AI理论吸引的心路历程,鼓励视觉化学习方式。

2025-05-30 19:52:07 1279

原创 Transformer基础解释(非数学)

Transformer 架构源自 Google 研究团队在 2017 年发表的里程碑式论文《该模型最初是为了改进机器翻译任务而设计的,它引入的自注意力(Self-Attention)机制彻底改变了序列处理的方式。: OpenAI 发布。这是首批广为人知的大型预训练 Transformer 模型之一,采用架构。通过在大量文本上进行生成式预训练,GPT 在进行特定任务微调后,能够在多种 NLP 任务上取得优异表现,展示了预训练模型的巨大潜力。

2025-04-16 05:52:51 1648 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除