- 博客(8)
- 收藏
- 关注
原创 0.1~0.6B大模型(INT8/INT4量化) 单片机/SOC 硬件性能硬性要求
摘要:本文分析了0.1~0.6B参数量级模型在嵌入式设备上的部署方案,指出INT4/INT8量化是该场景下的唯一可行方案。核心结论包括:0.3B以上模型优先选择INT4量化;硬件选型中片内SRAM容量是决定性因素;提供了不同参数量模型对应的最低硬件配置要求,并推荐了具体芯片型号。特别强调0.5/0.6B模型必须使用INT4量化,且需要高性能SOC支持。文章为嵌入式AI开发者提供了从模型量化到硬件选型的完整参考方案。
2025-12-30 15:12:26
921
原创 KV Cache 详解:大模型推理的核心优化技术
KVCache是Transformer模型推理优化的关键技术,通过缓存历史token的Key和Value向量避免重复计算,将推理复杂度从O(n²)降到O(n)。其核心原理是在生成每个新token时,只需计算当前token的K/V,历史token的K/V从缓存读取。虽然会占用额外内存(如LLaMA-7B模型约需2.1GB),但显著提升推理速度。主要优化技术包括分页管理(PagedAttention)、多头共享(MQA/GQA)、量化和滑动窗口等。KVCache实现了计算效率与内存占用的平衡,是现代大语言模型实
2025-12-29 19:36:23
816
原创 BEVFormer 四阶段拆分:Backbone→Encoder→Decoder→Head 全解析
BEVFormer作为基于Transformer的BEV感知框架,其核心流程可拆分为四个阶段:Backbone负责从多摄像头图像中提取2D语义特征;Encoder通过时空注意力将2D特征融合为统一的BEV特征,实现视角统一和时序建模;Decoder将高维BEV特征转换为适配下游任务的结构化特征;Head则基于解码后的特征完成3D检测或语义分割等具体任务。这种四阶段拆分不仅清晰展现了模型结构,更揭示了各模块的核心价值——Backbone提供"特征源泉",Encoder实现"视角统
2025-12-04 20:53:32
904
原创 BEVFormer 基本原理
BEVFormer是一种自动驾驶感知模型,其核心是通过Transformer将多摄像头图像拼接成鸟瞰图(BEV)。它采用空间注意力机制将6个摄像头的局部图像精准映射到BEV栅格中,并通过时序注意力融合历史帧信息来捕捉物体运动趋势。模型首先提取各摄像头图像特征,然后让每个BEV栅格查询相关摄像头区域的特征,同时参考历史帧的BEV特征,最终输出包含环境信息和运动状态的BEV特征图,用于3D检测、语义分割等下游任务。该方法通过注意力机制实现了高效的多视角融合和运动信息提取。
2025-12-04 20:02:33
600
原创 Transformer 解析:从原理到应用,一篇看懂 “注意力即一切“
Transformer模型是2017年谷歌团队在《AttentionIsAllYouNeed》论文中提出的革命性深度学习架构。它完全基于注意力机制,解决了RNN无法并行计算和CNN难以捕捉长距离依赖的问题,成为NLP、CV等领域的核心模型。Transformer通过编码器-解码器结构实现序列转换,其核心是多头自注意力机制,让模型能直接关注任意位置的相关信息。该模型在机器翻译等任务中表现优异,训练速度提升显著,现已成为BERT、GPT等主流AI模型的基础架构。Transformer的成功源于其并行计算能力、灵
2025-11-06 15:25:56
1135
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅