
一文通透让Meta恐慌的DeepSeek-V3:在MoE、GRPO、MLA基础上提出Multi-Token预测(含FP8训练详解)
他们的MTP策略主要旨在提高主模型的性能,因此在推理过程中,可以直接丢弃MTP模块,主模型可以独立正常运行此外,还可以重新利用这些MTP模块进行推测性解码,以进一步提高生成延迟// 待更。
大模型与ChatGPT系列:原理、论文、代码、应用
改进挑战Transformer:deepseek/mamba
AIGC与CV多模态:图像生成、视频生成、自动驾驶
七月科研论文大模型:含论文的审稿微调、阅读、写作、修订
协作机械臂中的模仿学习与动作预测
视觉语言动作机器人:从Robotics VLM到VLA
专门预训练的机器人大模型
具身智能背景下:人形机器人的复现与开发
RL背景之下:提升机器人泛化能力
RAG企业知识库问答系列
AI Agent:包含各种智能体,比如让AI按步骤生成论文
机器学习十大算法系列
微软面试100题系列
程序员编程艺术
BAT AI面试1000题系列
海量数据处理
我的创业与读书史
十五大经典算法研究
经典树结构:红黑树 B树等
AI应用:CV NLP 推荐
技术架构与源码剖析 July,于2010年10月11日开始在CSDN上写博(搜索:结构之法,进入本博客),2015年创办大模型科技公司七月在线(julyedu.com)
——————目前和各个合伙人共管4个办公室
1 长沙侧重大模型应用开发、全尺寸人形研发
2 北京侧重C端教育及论文/项目/申博等各种1V1
3 武汉侧重B端合作,侧重企业服务、高校服务
4 南京侧重工业场景的协作机器人研发,例如物料分拣、线缆插拔、零部件装配、打螺钉等
—————————————另,常年招AI工程讲师和学术导师,或其他方面的交流合作,皆可通过CSDN私信,或微博联系:julyweibo,或加AI大模型与具身智能交流Q群:204292834
