一文看懂multi-bit cell

全栈芯片工程师

于 2024-08-14 23:35:42 发布

阅读量893

点赞数 16

文章标签：数字IC SOC 数字后端

本文链接：https://blog.csdn.net/u011075954/article/details/141202853

版权

很多同学问小编景芯SOC为啥用multi-bit cell，今天就特别讲讲Multi-bit flip-flop。景芯soc A72项目要求大家掌握multibit cell的用法，本项目CPU里面的mb高达95%，选择合适的multibit cell得到超高的CPU利用率。

从Cadence user guide可以查阅到如下描述：Multi-bit flip-flop (MBFF) flow provides power optimization benefits with a minimum impact on timing. This flow is called as a part of the preCTS optimization stage.

所谓multi-bit cell，可以理解成把多个完全相同的cell合并在一个cell里，如下图所示，集成2bit的multi-bit cell的clock inverter是共享的，那么可以节省2个clock inverter的面积、功耗。同时由于flip-flop数量减少，时钟互联线也减少，即减少了clock net length、capacitance、clock inverter更利于总功耗的降低。

有一点非常重要，MBFF对SBFF的合并使用目的是降低功耗，但是前提是保证timing，若timing不满足，MBFF是应该被要求拆分成SBFF，SBFF更方便resize、move等操作。

芯片功耗很大一部分在时钟树上，通过multi-bit cell技术我们可以获得如下图所示的功耗改观：

此外，通常scan DFF由于带了scan mux电路，其面积会更大，而Multi-bit flip-flop (MBFF)合并单bit寄存器后，可以更明显降低面积，以scan DFF为例，single bit 和multi bit的逻辑关系一般如下：

在晶体管级别的版图设计过程中，会采用优化晶体管连接，晶体管共用等手段来节约面积，因此multi-bit cell比同等bit数目的single-bit cell的版图面积总和要小一些。假设一个1-bit DFF的面积为

，那么一个2-bit DFF的面积一般会比

小一些，4-bit DFF的面积会比

小更多。

在Cadence INNOVUS中可以用如下命令查看MBFF信息：

reportMultiBitFFs -all

reportMultiBitFFs -statistics

reportMultiBitFFs -cell MB2SDFCNQOPPSBD1BWP24P90ELVT

MBFF结构在功耗上带来的好处主要体现在以下几个方面，整体而言，就是减少了clock net length、capacitance、clock inverter。

1）clock pin capacitance减少从而降低clock switching power

由下图可知，虽然2bit MBFF较1bit flip-flop的clock pin cap改观不大，但当design中有大量multi-bit DFF来替代single-bit DFF时，DFF数量大量降低，芯片时钟树上整体pin cap的下降是非常明显的。cap越小switching power也越小，动态功耗降低。

2）时钟树buffer数量减少，降低switching和leakage power

由于multi-bit DFF中每个DFF的clock pin cap相对于single-bit DFF有一些减小，那么在multi-bit design中一个相同的buffer可以驱动更多的MDFF，当然最主要还是DFF数量的减少，从而显著减少时钟树上的buffer数量和面积，进一步降低时钟树上的功耗。

3）时钟树绕线资源减少，时钟树寄生RC从而降低dynamic power

MBFF大量使用时，相对于single-bit design来说，芯片standard cell数量大幅下降，而且在很多时候DFF的摆放也可能会更加集中，时钟树绕线将节省大量走线资源，进而减少整个时钟网络的寄生RC。

下图展示了single-bit DFF与multi-bit DFF的绕线差异，可以看出右侧的MBFF绕线明显更少，时钟整体的寄生RC得到减少，从而降低功耗。

尽管multi-bit有以上诸多优点，但是在实际应用中并不总能得到最好的结果。其主要原因在于以下几个方面：

a) single-bit到multi-bit的转化有诸多条件限制，很多时候design实际的multi-bit cell比率不高。

b) multi-bit cell摆放不合理可能会引起congestion问题、timing问题，反而会增加更多的组合逻辑的power从而抵消clock tree上带来的功耗降低的效果。

比如，2bit single-bit DFF本来被place在不同位置，若合同为2bit的multi-bit DFF后，routing连线可能反而更长，增加了路径延迟，工具会采用buffering、sizing的优化方式优化时序，若依然不能满足timing，那么multi-bit cell不如拆分成single-bit cell，因为single-bit cell可以更方便resize、move。

c) IR/EM方面的考虑可能会故意让multi-bit cell互相摆放的远一些，从而无法达到减少clock net length寄生RC从而降低功耗的效果。

“12nm 2.5GHz频率 hierarchy UPF DVFS低功耗A72后端培训”

2.5GHz 12nm 景芯SoC A72 upf DVFS 后端实战训练营！

项目手把手一对一辅导！随到随学！

课程采用hierarchy/partition flow，先完成单核A72实战，然后完成A72 TOP实战！训练营简介：

Instance：315万
Gate count：2600万
Frequency: 2.5GHz
Power domain：7个，hierarchy UPF设计
EDA工具有VCS/Fusion Compiler/VCLP
EDA工具有innovus/Starrc/PT/Voltus/formality/LEC/Calibre
EDA工具有Redhawk-sc全网首发python版

授课形式：视频+文档+上机实践，真实项目flow，一对一答疑！
ICer加班太多，项目采用视频模式，随到随学！

景芯A72训练营您将掌握以下知识：

掌握hierarchy UPF文件编写，掌握Flatten UPF文件编写、UPF验证。本项目采用hierarchy UPF方式划分了7个power domain、voltage domain。
掌握power switch cell，包括SWITCH TRICKLE、SWITCH HAMMER。掌握低功耗cell的用法，选择合适的isolation cell、level shifter等低功耗cell。
掌握Power gating，Clock gating设计技术。
掌握Multi-VT设计技术，本项目时钟树都是ULVT，动态功耗小，skew小。
掌握DVFS技术，ss0p9 2.5GHz、ss0p72 2.0GHz,，其中sram不支持ss0p63。要做ss0p63的话，给sram vddm单独一个0p7v的电源即可。
掌握multibit cell的用法，本项目CPU里面的mb高达95%，选择合适的multibit cell得到超高的CPU利用率。INNOVUS里面一般不做mb的merge和split。所以前后一样的，一般综合做multibit的merge split。

根据TOP Floorplan DEF进行CPU子系统的partition以及pin assignment。
Top的Power stripe的规划及其push down。
SpecifyBlackBox，将CPU core镜像partition。
手动manual cut the BlackBox的方法，掌握复杂的floorplan设计方法经验。
VerifyPowerDomain，检查低功耗划分以及UPF的正确性。
Pin assignment，根据timing的需求进行合理的pin脚排布，并解决congestion问题。
掌握Timing budget。
掌握利用Mixplace实战CPU的自动floorplan，掌握AI的floorplan方法学。

掌握Fusion compiler DCG，利用fusion compiler来完成DCG综合，进一步优化timing与congestion。
掌握hierarchy ICG的设计方法学，实战关键ICG的设置与否对timing的重大影响。
掌握Stapling技术，实战power switch cell的布局和特殊走线的方法学，掌握CPU子系统的powerplan规划及实现，保证CPU子系统和顶层PG的alignment。
掌握CPU子系统和TOP的时序接口优化。掌握TOP isolation cell的placement以及isolation cell input电学特性检查。
掌握TOP和CPU子系统的clock tree Balance优化处理，common clock path处理。时钟树结构trace和时钟树评价。
CPU子系统的DRC/LVS检查
TOP系统的DRC/LVS检查
Hierarchy & Flatten LVS检查原理及实现方法
静态时序分析&IR-Drop
DMSA flow
根据Foundry的SOD（signoff doc）的Timing signoff标准建立PT环境。
Star RC寄生抽取及相关项检查
Timing exception分析，包括set_false_path、set_multicyle_path解析。
PT timing signoff的Hierarchical和Flatten Timing检查
PT和PR timing的差异分析、Dummy insertion和with dummy的Timing分析
IR-Drop分析

训练营部分文档：

Flow：Partition Flow

时钟结构分析：

复位结构分析：

12nm 2.5GHz的A72实战训练营需要特别设置Latency，TOP结构如下，参加过景芯SoC全流程训练营的同学都知道CRG部分我们会手动例化ICG来控制时钟，具体实现参见40nm景芯SoC全流程训练项目，本文介绍下12nm 2.5GHz的A72实战训练营的Latency背景，欢迎加入实战。

时钟传播延迟Latency，通常也被称为插入延迟（insertion delay）。它可以分为两个部分，时钟源插入延迟（source latency）和时钟网络延迟（Network latency)。

大部分训练营同学表示平时都直接将Latency设置为0了，那latency值有什么用呢？其实这相当于一个target值，CTS的engine会根据你设置的latency值来插入buffer来实现你的latency target值。

下图分为1st Level ICG和2nd Level ICG，请问这些ICG为什么要分为两层？

请问，为什么不全部把Latency设置为0？2nd Level ICG的latency应该设置为多少呢？

latency大小直接影响clock skew的计算。时钟树是以平衡为目的，假设对一个root和sink设置了400ps的latency值，那么对另外的sink而言，就算没有给定latency值，CTS为了得到较小的skew，也会将另外的sink做成400ps的latency。请问，为何要做短时钟树？因为过大的latency值会受到OCV和PVT等因素的影响较大，并有time derate的存在。