自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Kong_1994的博客

懂得分享,就懂得快乐

  • 博客(23)
  • 收藏
  • 关注

原创 芯片开发学习笔记·二十三——DSP介绍

DSP(数字信号处理器)技术摘要 DSP是专为高效执行数字信号处理算法设计的微处理器,相比通用CPU具有单周期MAC运算、哈佛架构等优势。其核心架构包括: 改良哈佛架构实现指令/数据并行 专用MAC单元支持单周期乘累加 环形缓冲区和位反转等特殊寻址模式 多通道DMA实现计算与I/O并行 典型DSP算法包括FIR/IIR滤波、FFT和相关运算等,广泛应用于通信(5G基带)、音频处理(降噪)、雷达等领域。

2026-04-03 09:50:22 376

原创 芯片开发学习笔记·二十二——DPU介绍

DPU技术文档摘要 DPU(数据处理单元)是专为数据中心设计的系统级芯片,集成计算、网络、存储和安全功能,可卸载主机CPU基础设施任务。其发展经历了从基础网卡到智能网卡再到DPU的演进过程,代表产品包括NVIDIA BlueField系列和AMD Pensando等。 典型DPU架构包含: 多核Arm通用计算单元 网络/安全/存储专用加速引擎 高速内部互联 相比传统架构,DPU通过硬件加速显著提升数据处理效率,实现网络数据直接处理、协议硬件加速和存储直接访问等功能。

2026-03-26 15:03:10 598

原创 芯片开发学习笔记·二十一——primetime静态时序分析

摘要:Synopsys PrimeTime是一款用于静态时序分析(STA)签核的专业工具。它基于实际布线后的SPEF寄生参数进行精确时序验证,核心功能包括:Setup/Hold时序检查、功耗分析、信号完整性分析、时序ECO建议以及先进的POCV/AOCV分析。相比DC内置的STA估算,PrimeTime使用真实时钟树和互连延迟数据进行最终签核验证,确保所有时序违规被清除后才能流片。在芯片设计流程中,PrimeTime作为最后的"质检"环节,其分析报告必须完全通过才能进入tape-out。

2026-03-24 13:02:10 782

原创 芯片开发学习笔记·二十——时序报告分析

本文详细解析Synopsys Design Compiler/PrimeTime的时序报告格式与关键字段。报告重点展示如何解读时序路径中的增量延迟、累积延迟、信号跳变方向等信息,以及setup/hold分析的关键差异。通过典型示例说明时序路径的构成要素和计算方法,为时序分析提供实用参考。

2026-03-23 21:03:20 660

原创 芯片开发学习笔记·十九——综合常用的SDC约束

本文总结了芯片DC综合中的常用约束方法,重点介绍了时序约束的关键命令和参数设置。文章提供了详细的Tcl命令示例和参数说明,帮助工程师正确设置综合约束条件,确保芯片设计的时序收敛和功能实现。特别强调了异步路径处理的关键注意事项。

2026-03-23 14:18:28 631

原创 芯片开发学习笔记·十八——浮点数转换(convert)

摘要:本文系统介绍了浮点数的编码原理和常见格式转换方法。主要内容包括:1) 浮点数采用科学计数法表示,由符号位、指数和尾数三部分组成;2) 详细对比了FP32、FP16、BF16、FP8等格式的位域结构和特性参数;3) 深入分析了FP32与FP16/BF16/INT8之间的转换原理,包括指数调整、尾数处理等关键步骤;4) 总结了特殊值处理规则和转换复杂度对比。文章为硬件实现提供了实用指导,特别适合AI加速器设计者参考。

2026-03-21 10:31:47 420

原创 芯片开发学习笔记·十七——硬件矩阵转置

本文系统阐述了矩阵转置的原理与实现方法。首先定义了矩阵转置的基本概念(Aᵀ[i][j]=A[j][i]),分析了行优先和列优先两种存储模型的地址映射关系。随后详细介绍了三种硬件实现方案:组合逻辑的直接连线重排(适用于小矩阵)、单RAM地址重映射(中大型矩阵)和双Buffer乒乓流水(流式数据处理)。重点讨论了双Buffer方案的Verilog实现细节,包括状态机控制、地址转换和接口设计。最后对比了各方案的资源消耗和性能特点,并提出了分块转置策略以处理超大矩阵。全文通过数学公式、示意图和代码实例,完整呈现了矩

2026-03-20 14:33:22 228

原创 芯片开发学习笔记·十六——ISP概述

本文系统阐述了图像信号处理器(ISP)的完整处理流程与关键技术模块。ISP作为连接图像传感器与显示/编码系统的核心部件,通过流水线方式对RAW数据进行多级处理:首先进行坏点校正、黑电平补偿等RAW域预处理;然后通过宽动态范围处理提升图像质量;接着完成色彩重建(去马赛克、白平衡等);再进行降噪与图像增强;最后输出处理后图像。文章详细解析了各模块的技术原理、算法实现及性能指标,并探讨了3A控制算法(自动曝光、白平衡、对焦)的运作机制。随着AI技术的发展,ISP正朝着AI-ISP融合、RAW域智能处理等方向演进,

2026-03-18 09:54:52 802

原创 芯片开发学习笔记·十五——RDMA

RDMA(远程直接内存访问)是一种高性能网络技术,通过绕过操作系统内核和CPU介入,实现计算机间的直接内存读写。其核心特性包括零拷贝、内核旁路、CPU卸载,能提供1-5微秒的超低延迟和100-400Gbps的高带宽。RDMA通过内存注册、队列对模型(发送/接收/完成队列)和三种核心操作(SEND/RECV、WRITE、READ)实现高效数据传输,其中单边操作(WRITE/READ)效率最高。主流实现技术包括InfiniBand、RoCE和iWARP,广泛应用于HPC、分布式存储、AI训练、金融交易等对低延迟

2026-03-17 15:51:54 598

原创 芯片开发学习笔记·十四——时序优化

芯片设计时序优化是一个系统工程,需要多阶段协同。RTL阶段通过流水线插入、寄存器平衡等方法优化架构;逻辑综合阶段采用局部重映射、时序驱动综合等技术改善网表;物理实现阶段运用逻辑复制、引脚交换等物理综合手段;同时优化时钟树管理。最新方法结合AI技术,如智能设计运行和自适应场景压缩,显著提升效率。研究表明,这些方法可使WNS提升1.12%,TNS提升11.6%,时钟频率提高7%,并减少53.4%的ECO迭代次数。

2026-03-13 15:39:58 436

原创 芯片开发学习笔记·十三——面积优化

摘要:芯片设计在逻辑设计阶段可通过RTL代码优化、微架构选择和逻辑综合优化实现面积节省。RTL优化包括资源共享、状态机优化和避免锁存器;微架构优化采用串行化设计和数据位宽裁剪;综合阶段通过约束设置、逻辑结构优化和技术映射进一步压缩面积。这些方法协同作用,能显著减少芯片面积,其中位宽裁剪和资源共享对算术单元优化尤为有效。优化需平衡面积、时序和功耗,综合工具配置是关键环节。

2026-03-13 10:33:05 622

原创 芯片开发学习笔记·十二——FEC(前向纠错)

FEC(前向纠错)是一种通过添加冗余信息在接收端直接纠正传输错误的技术,适用于单向通信场景。其核心是将k比特数据编码为n比特码字(n>k),通过分组码(如汉明码、RS码、LDPC码)或卷积码(如Turbo码、Polar码)实现纠错。FEC具有无需重传、低延迟等优势,广泛应用于卫星通信、5G、光通信等领域,但会降低有效传输速率。现代通信系统(如5G、400G光模块)采用LDPC、Polar等高性能编码逼近香农极限,成为保障数据传输可靠性的关键技术。

2026-03-12 15:46:40 490

原创 芯片开发学习笔记·十一——链表

本文探讨了链表从软件到硬件的实现方法。软件层面,链表是由节点组成的线性数据结构,包含数据域和指针域,支持非连续存储。硬件实现上,通过多个RAM模块(数据RAM、链表RAM、状态寄存器等)构建链表结构,实现数据队列的分散存储和重组输出。详细描述了数据写入、地址更新、空间释放等操作流程,包括初始状态处理、链表耗尽时的应对策略等。该方案通过硬件化链表管理,有效实现了数据队列的动态存储和高效重组。

2026-03-11 10:18:06 320

原创 芯片开发学习笔记·十——低功耗设计

本文分析了芯片功耗的三个主要来源:浪涌电流、静态功耗和动态功耗(占总功耗80%)。动态功耗主要由逻辑转换引起,其计算公式涉及转换次数、寄生电容、电压和频率。降低功耗的方法包括:系统级采用门控时钟、电源门控和动态电压频率调节;寄存器传输级通过状态机编码优化(格雷码/独热码)、独热码多路选择器、减少冗余逻辑翻转、资源共享和逻辑优化(如降低乘法器位宽)等手段。这些方法能有效降低芯片功耗,提高能效。

2026-03-07 07:29:44 418

原创 芯片开发学习笔记·九——握手打拍处理

本文探讨了芯片设计中握手协议中valid/ready信号延迟的处理方法。针对valid或ready信号延迟过大的情况,提出了三种打拍方案:1)前向打拍(FWD-ONLY),对valid和数据信号打拍,使用ready信号控制数据保持;2)后向打拍(REV-ONLY),对ready信号打拍并缓存一笔数据;3)双边打拍(FWD&REV),同时处理valid和ready信号。文章通过Verilog代码详细展示了三种模式的实现方法,包括信号控制逻辑和数据缓存机制,为处理握手协议中的延迟问题提供了有效的解决方案

2026-03-06 10:01:29 54

原创 芯片开发学习笔记·八——仲裁器

仲裁器是数字系统中管理多请求者访问共享资源的关键电路。其核心功能是根据预设策略(如固定优先级、轮询或加权公平)从多个并发请求中选择一个进行授权,确保资源有序使用。常见实现方式包括组合电路(固定优先级)和时序电路(轮询需记录状态)。仲裁器广泛应用于总线、内存控制器、网络交换等场景,设计时需保证授权信号互斥,并考虑请求有效性及资源释放机制。典型实现通过Verilog代码展示,如固定优先级仲裁器使用位运算确定最高优先级请求,轮询仲裁器则通过移位寄存器实现公平调度。

2026-03-06 09:14:04 404

原创 芯片开发学习笔记·七——AXI总线

本文详细对比了AHB、APB和AXI三种总线协议的特性与应用场景。AHB适用于高效能系统模块,APB针对低速外设,而AXI具有更高性能,支持读写并行、乱序传输等特性。文章深入解析了AXI协议的五通道结构、握手机制、突发传输方式及死锁问题,重点阐述了VALID/READY握手时序、通道间依赖关系、突发传输参数设置等核心内容。同时介绍了AXI的outstanding机制、QoS信号、多区域信号等扩展功能,并分析了不同协议版本(AXI3/AXI4)的差异。通过系统性的技术对比和协议解读,为SoC设计中总线架构选择

2026-03-02 11:02:00 879

原创 芯片开发学习笔记·六——串行通信协议

本文介绍了三种常用串行通信协议:SPI、UART和I2C。SPI是同步全双工协议,采用主从模式,支持4种工作模式,但没有应答机制;UART是异步全双工协议,通过起始位、数据位和停止位传输数据,波特率需匹配;I2C是同步半双工协议,仅需两根线,支持多设备通信,具有应答机制和严格的时序要求。三种协议各具特点,适用于不同场景:SPI适合高速短距通信,UART适合简单异步传输,I2C适合多设备连接。

2026-02-28 10:46:41 291

原创 芯片开发学习笔记·五——状态机

状态机(FSM)是表示有限个状态及这些状态之间的转移和动作等行为的数学模型,根据状态的转移和判断来实现不同的工作模式。

2026-02-25 15:12:25 249

原创 芯片开发学习笔记·四——时钟复位

本文探讨了时钟与复位信号的设计要点。在时钟方案中,建议使用PLL生成时钟以避免毛刺问题,并采用门控时钟技术(基于锁存器)降低功耗,最佳做法是在时钟树根部控制。复位设计方面,同步复位有利于时序分析但需足够脉冲宽度,异步复位响应快但存在亚稳态风险,推荐采用"异步复位同步释放"机制来兼顾响应速度与稳定性。文章还特别解释了恢复/移除时间对异步复位信号的关键要求。这些方法能有效提升数字电路的可靠性和能效。

2026-02-24 15:22:58 396

原创 芯片开发学习笔记·三——跨时钟域设计

摘要:多比特信号跨时钟域传输需要特殊处理,常见方法包括:1)异步FIFO,通过格雷码编码读写指针实现安全传输,适用于连续数据流;2)握手协议,通过请求-应答机制确保数据稳定传输,可靠性高但延迟较大;3)格雷码转换,适用于每次仅1bit变化的数据(如计数器)。其中异步FIFO实现核心包括双端口RAM、格雷码指针转换和两级同步器,通过比较同步后的指针状态产生空满标志。握手协议模块则通过状态机控制请求/应答信号的同步传输来确保数据安全。

2026-02-20 21:42:11 155

原创 芯片开发学习笔记·二——亚稳态

摘要:亚稳态是由于违背触发器建立/保持时间导致的数据不稳定状态。产生原因包括跨时钟域信号传输、时钟偏移等。亚稳态窗口越大,发生概率越高。降低亚稳态的方法包括多级寄存器打拍、使用快速触发器、降低时钟频率等。对于单bit信号可采用同步器,但多bit信号存在不一致性问题。MTBF(平均无故障时间)是评估系统可靠性的重要指标,与亚稳态解析时间、时钟频率等因素相关。亚稳态只能降低概率,无法完全消除。

2026-02-18 23:02:52 832

原创 芯片开发学习笔记·一——数字芯片开发基本流程

数字芯片开发主要分为ASIC和FPGA两种流程。ASIC开发包含前端设计(RTL编码、功能仿真、逻辑综合)和后端实现(布局布线、时钟树综合、物理验证)等关键步骤,需完成时序分析和形式验证。FPGA开发流程相对简化,包括功能定义、RTL设计、综合优化、布局布线及板级验证,通过时序仿真调整约束条件。两者均需进行多次仿真验证,ASIC更注重物理实现的精确性,而FPGA侧重逻辑功能的快速验证。开发过程中需严格把控时序约束和功能一致性,确保芯片性能达标。

2026-02-12 16:09:27 306

芯片开发学习笔记·十八-浮点数转换(convert)verilog代码

芯片开发学习笔记·十八-浮点数转换(convert)verilog代码

2026-03-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除