人工智能芯片设计
文章平均质量分 90
聊一聊人工智能芯片开发设计中的一些内容
fpga和matlab
算法即数学,数学即万物。2007年开始从事算法研究工作,2010年开始从事FPGA通信算法开发工作,2019开始从事AI开发工作。目前主业为人工智能和通信基带算法开发。擅长解决各种算法仿真、建模、通信、图像处理、AI、智能控制等各专业问题。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
CPU、NPU、GPU、TPU的区别
本文对比分析了四种处理器核心的特性与应用场景:CPU作为通用计算核心,擅长复杂逻辑和串行任务;GPU采用众核架构,适合图形渲染和大规模并行计算;NPU专为神经网络优化,在边缘AI推理中具有高能效优势;TPU则是Google专为云端AI设计的张量加速器。四者在架构设计、核心数量、适用任务和能效比方面存在显著差异:CPU是系统"大脑",GPU主攻并行计算,NPU专注边缘推理,TPU则服务于云端AI训练。这种分工协同构成了现代计算系统的完整处理体系。原创 2025-12-08 23:47:50 · 1435 阅读 · 0 评论 -
神经网络加速器架构设计中的算力与带宽优化权衡
摘要:本文探讨神经网络加速器中算力与带宽的协同优化问题。算力(TOPS/TFLOPS)反映计算能力,带宽(GB/s)决定数据传输速率。重点分析卷积层的协同设计:1)输入带宽优化中,推导特征图传输时间、权重加载时间和运算时间的计算公式,提出带宽-算力比(BoC)指标评估匹配程度;2)输出带宽设计中,建立Conv模块与下游模块的吞吐量匹配模型,推导标准卷积、分组卷积和深度可分离卷积的吞吐量公式。通过量化分析,为加速器架构设计提供理论依据。(149字)原创 2025-12-07 19:53:03 · 584 阅读 · 0 评论 -
神经网络稀疏化设计构架——网络剪枝
摘要:神经网络剪枝技术通过去除冗余参数实现模型压缩与加速,是深度学习模型边缘部署的关键方法。文章系统阐述了剪枝技术的核心流程:首先基于权重绝对值等指标量化参数贡献度,采用固定阈值或分层阈值法筛选冗余参数;随后通过参数级或通道级重构构建稀疏网络,并利用微调修复精度损失。MATLAB实验以LeNet-5为例,展示了50%剪枝比例下的实现过程,在保持90%+准确率的同时显著减少参数量。该技术有效解决了模型复杂度与部署需求的矛盾,在移动端应用中具有重要价值。原创 2025-09-10 16:02:18 · 6289 阅读 · 4 评论 -
神经网络稀疏化设计构架——激活稀疏性
本文探讨了神经网络中ReLU激活函数引发的激活稀疏性及其应用。研究发现,ReLU通过将负输入置零模拟生物神经元的开关特性,导致网络输出高度稀疏(部分层稀疏度达0.95)。这种稀疏性可优化AI芯片设计:通过数据压缩降低带宽需求(减少1/3通信带宽)、跳过零值计算节省45%功耗、小激活值剪枝进一步优化性能。实验显示,利用激活稀疏性可实现最高8.11倍性能提升,为神经网络的高效实现提供了重要优化途径。原创 2025-09-08 21:57:49 · 805 阅读 · 0 评论 -
人工智能芯片设计中的低位宽神经网络技术
摘要:神经网络量化技术通过降低数据位宽(如32位浮点至8位定点)实现硬件效率提升。线性量化采用均匀映射(如INT8),硬件适配性强但精度损失较大,典型应用于TensorRT和TPU;非线性量化(如对数量化、分位量化)通过非均匀映射适配数据分布,在LLM等场景表现更优但硬件复杂度高。关键技术指标显示,8位运算能耗仅为32位的1/20,而4位量化可使模型显存占用减少75%。两种量化方法在精度、硬件代价和应用场景上形成互补,推动AI芯片能效比持续优化。原创 2025-09-06 23:06:12 · 850 阅读 · 1 评论 -
人工智能芯片开发中3D-DRAM高温问题解决方案研究
3D-DRAM的高密度堆叠特性导致严重散热问题,JEDEC标准规定温度超过85℃时自刷新速率需翻倍,影响存储可靠性。谷歌TPUv3采用水冷系统,使芯片功率提升1.6倍。高温原因包括:1)神经网络不同层资源需求差异导致温度波动;2)片上缓存分配不合理;3)稀疏化技术未有效利用缓存资源。解决方案分物理散热和架构优化:物理散热包括浸没式冷却、台积电CoWoS-L技术和SK海力士MR-MUF技术;架构优化则通过动态缓存分配、免补零稀疏化计算和访存调度优化降低温度。原创 2025-09-05 17:23:31 · 1303 阅读 · 0 评论 -
人工智能芯片开发的三维集成存储器技术
三维集成存储器技术是突破AI芯片存储瓶颈的关键,通过垂直堆叠架构显著提升带宽和能效。核心技术包括3D NAND闪存(如SK海力士321层4D NAND)和HBM(美光HBM3E带宽超1.2TB/s),结合存算一体架构(如3D-VReRAM能效达11.5TFLOPS/W)和新型存储器(MRAM/ReRAM)。该技术已应用于GPU加速(NVIDIA H200)、超算系统及边缘AI设备,Verilog实现方案展示了分层控制、TSV互联和并行访存等关键设计。三维集成技术将推动AI芯片实现更高的计算密度和能效比。原创 2025-09-04 19:36:41 · 1156 阅读 · 0 评论 -
人工智能芯片设计——片上存储系统原理与实现
本文介绍了面向AI加速器的片上存储系统设计与Verilog实现。该系统采用多级缓存架构,包含144KB数据缓存(48个Bank)和17KB权重缓存(1KB共享+16KB局部),通过乒乓操作、Bank并行访问和数据复用技术解决访存墙问题。重点阐述了缓存控制器的状态机设计,以及数据与权重缓存的Verilog实现细节,包括Bank结构、地址映射和访问调度机制。该系统支持计算与数据预取的并行执行,可为处理单元阵列提供高带宽、低延迟的数据访问。原创 2025-08-21 20:16:41 · 923 阅读 · 0 评论 -
人工智能芯片开发——算子重构技术
本文介绍了Thinker架构中的两种可重构处理单元(PE):通用PE和超级PE。通用PE支持卷积层、全连接层和循环层的MAC运算,通过5bit控制字实现配置重构,包含数据流处理和状态机控制逻辑。超级PE在通用PE基础上扩展功能,新增池化、tanh、Sigmoid等5种操作,采用12bit控制字配置,通过重用乘法器和加法器提高资源利用率。两种PE均采用Verilog实现,支持灵活的算子重构以适应不同神经网络层的计算需求,在保证算力匹配的同时优化能效和硬件利用率。原创 2025-08-18 23:21:36 · 857 阅读 · 0 评论 -
人工智能芯片开发——位宽自适应MAC技术详解
《位宽自适应MAC技术设计与实现》 摘要:本文提出了一种位宽自适应MAC(乘累加)技术,通过动态配置8bit/16bit运算模式,显著提升了硬件计算效率。该设计采用灵活的硬件架构,支持并行乘法运算(8bit模式)和组合乘法运算(16bit模式),通过s11控制信号实现位宽动态切换。Verilog实现验证表明,该技术具有三大优势:1)通过模式切换提升计算效率;2)根据精度需求降低动态功耗;3)优化硬件资源利用率。测试案例演示了8bit模式下(10×3,10×5)和16bit模式下(10×1283)的正确运算及原创 2025-08-17 00:57:51 · 502 阅读 · 1 评论
分享