- 博客(85)
- 资源 (17)
- 收藏
- 关注
原创 【AI】CUDA 是如何成功的?(AI 计算的民主化,第 3 部分)
如果我们作为一个生态系统希望取得进步,我们需要了解CUDA 软件帝国是如何变得如此主导地位的。理论上,存在替代方案——AMD 的 ROCm、英特尔的 oneAPI、基于 SYCL 的框架——但实际上,CUDA 仍然是GPU 计算领域无可争议的王者。这是怎么发生的?答案不仅仅在于技术卓越——尽管技术卓越也发挥了一定作用。CUDA 是一个开发者平台,它建立在卓越的执行力、深度战略投资、持续性、生态系统锁定,当然,还有一点点运气的功劳。
2025-05-16 15:10:01
814
原创 【AI】“CUDA” 到底是什么?(AI 计算民主化,第二部分)
似乎每个人都在去年开始谈论CUDA :它是深度学习的支柱,是新型硬件难以竞争的原因,也是NVIDIA 护城河和飙升市值的核心。DeepSeek的出现,让我们获得了一个惊人的发现:它的突破是通过“绕过” CUDA,直接进入 PTX 层实现的……但这究竟意味着什么?似乎每个人都想打破这种锁定,但在制定计划之前,我们必须了解我们面临的是什么。本文是 Modular “ AI 计算民主化”系列文章的第二部分。更多信息,请参阅:第一部分:DeepSeek 对 AI 的影响第二部分:“CUDA”到底是什么?
2025-05-14 14:43:48
1164
原创 【AI】DeepSeek 对 AI 的影响(AI 计算民主化,第 1 部分)
DeepSeek 最近的突破颠覆了人们对人工智能计算需求的假设,表明更好的硬件利用率可以显著减少对昂贵 GPU 的需求。本文是 Modular “ AI 计算民主化”系列的第一部分。更多信息,请参阅:第一部分:DeepSeek 对 AI 的影响(本文)第 2 部分:“CUDA”到底是什么?第 3 部分:CUDA 如何取得成功?第 4 部分:CUDA 是现任者,但它好用吗?第 5 部分:OpenCL 和 CUDA C++ 替代品怎么样?
2025-05-14 14:36:43
522
原创 【IC】如何获取良好的翻转数据来改进dynamic IR drop分析?
动态分析的优劣取决于切换场景的优劣。在任何输入 VCD 的情况下,都存在一个挑战,即在 VCD 持续时间内选择一个较小的窗口进行动态压降分析。RedHawk-SC 软件拥有强大的 VCD 名称映射流程和用于执行逻辑事件传播的原生解决方案,以及高效的功耗分析流程,该流程可轻松添加来自其他数据点的输入。首先,获取 VCD 是一项挑战,因为成熟的功能仿真通常只在设计周期的最后阶段进行。与门级或网表级 VCD 相比,RTL VCD 在设计周期的早期阶段即可获得,其持续时间比功能模式更长,而且更容易获取。
2025-05-14 11:58:15
603
原创 【EDA】Multi-Net Routing(多网布线)
在VLSI物理设计中,多网布线(Multi-Net Routing)的目标是同时为多个网络(Nets)规划路径,避免布线资源冲突(如导线重叠、拥塞),并优化线长、延迟或拥塞度。第六章的算法覆盖了多网布线的核心挑战:资源竞争、拥塞控制、层约束,从单网筛选到全局优化,为复杂芯片的可靠布线提供了多层次解决方案。随着芯片集成度提升,多网布线的高效算法仍是学术界和工业界的研究热点,尤其在3D IC和先进封装中的应用需求日益增长。将多网布线建模为流网络问题,最小化总拥塞,允许流量分配到多条路径,优化全局资源利用。
2025-04-25 15:49:03
865
原创 【EDA】Steiner Routing(斯坦纳布线)
在VLSI物理设计中,斯坦纳布线(Steiner Routing)的目标是在给定一组引脚(Pins)的情况下,找到连接它们的最小线长或最小延迟的路径,允许引入额外的斯坦纳点(Steiner Points)以优化性能。第五章的算法覆盖了从几何线长优化到电学延迟优化的完整 spectrum,为VLSI布线提供了从基础结构到高性能约束的解决方案,是现代EDA工具(如Synopsys StarRC)的核心技术支撑。在给定半径约束下构建最小线长的斯坦纳树,平衡最长路径(半径)和总线长,包括BPRIM和BRBC算法。
2025-04-25 15:45:20
357
原创 【EDA】Placement(布局)
在VLSI物理设计中,布局(Placement)的目标是确定电路中每个模块(或门)的位置,以最小化线长、时序延迟或功耗,同时满足面积和拥塞约束。第四章的算法覆盖了从早期分层划分到现代启发式优化的核心方法,为VLSI布局提供了从粗到细的完整流程,是后续布线和物理验证的关键前置步骤。通过二次规划(QP)最小化平方线长,结合分层划分和重心约束,逐步细化模块位置,减少重叠并优化线长。通过递归二分划分电路,每次切割最小化跨分区连接(割集),结合终端传播优化模块位置,减少全局线长。
2025-04-25 15:39:16
729
原创 【EDA】Floorplanning(布局规划)
在VLSI物理设计中,布局规划(Floorplanning)的目标是确定芯片上模块(Blocks)的位置和尺寸,确保无重叠且优化面积、线长、时序等指标。第三章的算法覆盖了从传统切片布局到现代非切片布局的核心方法,为后续布局(Placement)和布线(Routing)提供了基础的结构规划,是VLSI物理设计中平衡面积、性能与约束的关键环节。通过数学规划求解软模块(尺寸可变)和硬模块(尺寸固定)的布局,优化面积、线长或满足约束(如固定外形、模块旋转)。
2025-04-25 15:35:20
698
原创 【EDA】EDA中聚类(Clustering)和划分(Partitioning)的应用场景
在VLSI物理设计自动化中,聚类(Clustering)和划分(Partitioning)是两个互补但目标和应用场景截然不同的关键步骤,其核心区别如下:角色定位:约束重点:输出形态:典型流程配合:两者在VLSI设计中缺一不可:聚类为划分提供高效的输入,划分确保后续物理实现的均衡性,共同支撑从逻辑设计到物理实现的全流程优化。
2025-04-25 15:25:41
1023
原创 【EDA】EDA中聚类(Clustering)和划分(Partitioning)
生成簇级网络,可能包含节点复制(Duplication)以优化延迟或连接。:将电路划分为K个大小相近的分区(Partitions),最小化跨分区的连接(割集,Cutsize),或优化其他指标(如延迟、功耗)。:平衡的K-way分区,例如二分(Bipartitioning)或K-way划分,直接为后续布局或布线提供结构化的子电路。:将电路中的门(Gates)分组为簇(Clusters),形成更小的簇级网络,减少后续设计步骤(如划分、布局)的复杂度。
2025-04-25 15:20:26
588
原创 【IC】STA计算
它们为具有单个接收器的 π 形互连提供了一种封闭形式,以有效地计算目标电压范围内的有效电容,同时迭代求解接收器输入端的压摆,以从 CSM 接收器模型中获得准确的值。给定一个 input waveform,stage timing calculator 作为 gate-level STA 的主要构建块,通过逻辑门和互连线传播信号和波形,二者决定了延时和转换时间以及每级的到达时间。基于图的 STA 仅传播最差的时序,但通过与路径搜索相结合,基于图的 STA 可以提取所有感兴趣的关键路径。
2025-04-17 19:14:05
457
原创 【EDA】仅靠人工智能还不足以进行芯片设计
传统搜索和机器学习的结合可能是未来的发展方向自1971 年Federico Faggin仅用直尺和彩色铅笔绘制出第一款商用微处理器Intel 4004以来,芯片设计已经取得了长足的进步。如今的设计师拥有大量软件工具来规划和测试新的集成电路。但随着芯片变得越来越复杂(有些芯片包含数千亿个晶体管),设计师必须解决的问题也越来越多。而这些工具并不总是能胜任这项任务。现代芯片工程是一个由九个阶段组成的迭代过程,从系统规范到 封装。
2025-03-04 15:19:38
797
原创 【IC】温度感知芯片微架构设计
近年来,微处理器的功率密度每三年翻一番 [3, 17],随着特征尺寸和频率的扩展速度快于工作电压,预计这一速度将在一到两代内增加 [25]。由于微处理器消耗的能量转化为热量,因此热密度的相应指数级增长在可靠性和制造成本方面造成了巨大的困难。在任何功耗水平下,都必须从微处理器芯片表面去除产生的热量,对于当今除最低功率设计之外的所有设计,这些冷却解决方案都变得昂贵。
2025-02-20 11:59:48
1067
原创 【IC】Pelgrom’s Law-- 佩尔格罗姆定律
特别是在先进工艺下,如果晶体管要做的更小,缩小沟道长度和沟道宽度等指标,则工艺偏差会变大。Pelgrom’s Law-- 佩尔格罗姆定律。
2025-02-13 17:11:52
490
2
原创 【IC】AI处理器核心--第一部分 了解深度神经网络
本书对实现深度神经网络 (DNN) 高效处理的关键原则和技术进行了结构化处理。DNN 目前广泛用于许多人工智能 (AI) 应用,包括计算机视觉、语音识别和机器人技术。虽然 DNN 在许多 AI 任务上提供了最先进的准确性,但它的代价是计算复杂性很高。因此,能够在不牺牲准确性或增加硬件成本的情况下,能够高效处理深度神经网络以提高关键指标(例如能效、吞吐量和延迟)的技术对于在 AI 系统中实现 DNN 的广泛部署至关重要。该书包括 DNN 处理的背景;用于设计 DNN 加速器的硬件架构方法的描述和分类;
2025-02-11 15:04:12
1382
Practical problems in VLSI physical design automation
2025-04-25
Efficient Processing of Deep Neural Networks
2025-01-21
Hardware Architectures for Deep Learning
2025-01-21
Altium designer 18- PCB Logo Creator
2019-03-05
FPGA/ASIC高性能数字系统设计_part2
2018-09-17
FPGA/ASIC高性能数字系统设计_part1
2018-09-17
MSP430G2553 DAC+ADC 简单应用,用nokia 5110显示 CCS6.0编写
2014-09-17
诺基亚5110显示屏 MSP430G2553实例程序 CCS6.0编写
2014-07-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人