一、项目总体管理过程
制定项目目标
核心流程包括市场分析,成本预算,可行性研究,立项审批等等
研发核心任务可行性研究:评估技术可行性(如7nm工艺成熟度)、资源能力(人力资源/工具资源/IP资源/软件资源/硬件资源/制造封装测试资源等)、风险管控。
制定项目计划
定义、准备、协调所有子计划(Design/Verification/TO schedule etc.)
指导项目执行
执行项目管理计划中定义的工作
例如:资源管理策略:
资源池分配:
根据WBS任务优先级调配设计、验证、后端工程师。
冲突解决:使用资源平衡技术(Resource Leveling),避免同一工程师同时参与多个关键任务。
子计划整合:
风险管理计划:识别流片延期风险,制定备选封装方案(如从CoWoS改为Fan-out)。
沟通计划:定义SE(系统工程师)为跨团队接口人,每周同步进度。
监控项目状态
监视和控制项目启动、计划、执行和结束过程
例如:监控执行阶段关键活动:
技术评审:在RTL冻结、物理设计完成等节点进行正式评审(DDR接口时序签核)。
监控工具与方法:
EVM(挣值管理):对比计划值(PV)、实际成本(AC)、挣值(EV),计算CPI/SPI。
里程碑健康度检查:若物理设计延迟超2周,触发预警并启动赶工计划。
控制整体变更及风险
就可交付成果和组织过程资产,审查所有的变更请求
例如:
使用JIRA跟踪变更请求(PCR),评估对PPA(性能、功耗、面积)的影响。
项目收尾
最终完成所有项目管理过程组的所有活动
交付物验收:客户签署《芯片验收报告》,确认功能、功耗达标。
知识转移:归档设计文档、验证用例至Confluence,供后续项目复用。
项目复盘:召开Retrospective Meeting,总结“RTL阶段需求变更频繁”的改进措施。
二、项目管理工具 – WBS(Work Breakdown Structure)
WBS分解目标:
将项目工作分解成较小的、更易于管理的多项工作
WBS的各个组成部分有助于项目干系人理解项目的可交付成果
用于确定所需资源,确定责任归属,帮助定义项目工作顺序及估计项目时间
WBS类型:
按生命周期分解(以芯片设计为例):
Level 1:需求分析 → 架构设计 → RTL开发 → 验证 → 物理设计 → 流片 → 测试
Level 2:验证阶段可拆分为单元验证、子系统验证、全芯片仿真。
与进度计划联动:
将WBS任务导入Microsoft Project,自动生成甘特图并识别关键路径。
8/80小时原则应用:任务“RTL编码”拆分为5个子任务,每个耗时3-5天。
注意:
分解过粗有什么问题
无法量化,评估
任务无法分配
分解过细有什么问题
无法监控
增加管理成本
举例:Chip Flow WBS分解
KickOff 前期准备
Project Review Meeting for MRD & PRS
Milestone define and Schedule
Resource assignment
Digital IP Develop Schedule
Analog IP Develop Schedule
3rd IP and EDA license Plan
SOC Execution Schedule
PPA Evaluation report
Critical path
Risk Analysis
Support and Requirement
MRD&PRS需求分析
MRD:Marketing Requirement Document
Product Development Background
Product Planning
Product Positioning
VoC:Voice of Customer
Competitor Benchmark
Product Main Feature
Product Cost Analysis
Product develop Schedule
Marketing Forecast
Project Sale Revenue
PRS:Project Requirement Specification
Application Target
HW Spec
SW Spec
Chip Spec
Total Solution
Size and PKG requirement
Power and Performance Requirement
Process and OPS requirement
Chip Bring up and SW Develop Plan
Chip and MP Schedule
需求Breakdown
CPU Performance Requirement
DSP Performance Requirement
DDR Performance Requirement
Video Feature Requirement
Audio Feature Requirement
Debug Feature Requirement
Key IP Performance Requirement
High Speed Interface Requirement
PER IIP Feature Requirement
Power and Clock Requirement
Thermal Requirement
PM IC Requirement
EVB Board Requirement
Performance
Power
Cost
Efficiency
Stability
Inheritance
Design for Maintain
Design for Debug
Design for Test
Productive Failure Management
Security Requirement
三、项目管理工具 – JIRA设计进程管理
1. 核心功能与应用场景
任务分层管理:
Epic(史诗):如“SOC集成开发”,涵盖架构设计、IP集成、验证等阶段。
Story(故事):如“实现PCIe 5.0接口”,细化到功能模块级别。
Sub-task(子任务):如“编写RTL代码”、“搭建仿真环境”,遵循8/80小时原则。
Bug全生命周期管理:
提交与分类:通过自定义字段标记Bug来源(RTL/验证/物理设计)。
优先级与严重性:
级别 | 定义 | 响应时间 |
---|---|---|
Critical | 芯片功能完全失效 | 24小时内 |
Major | 性能不达标(如功耗超限10%) | 48小时内 |
Minor | 文档错误或UI显示问题 | 下一版本 |
闭环验证:修复后需关联验证报告(JIRA链接至Confluence测试用例),由QA团队确认关闭。
2. 高级功能与集成
自动化工作流:
代码提交触发任务更新:GitLab提交关联JIRA任务,自动标记为“开发完成”。
持续集成(CI)联动:Jenkins构建失败时自动生成JIRA故障单,指派至责任人。
可视化看板:
创建“关键路径任务看板”,筛选显示所有浮动时间为0的任务,实时监控进度。
使用燃尽图(Burn-down Chart)预测项目完成时间,识别资源瓶颈。
3. 最佳实践案例
案例:某GPU项目通过JIRA筛选器(Filter)生成“高风险任务清单”,自动通知相关工程师,延期率降低25%。
模板推荐:
任务描述模板:包含背景、验收标准、依赖项、负责人字段。
Bug报告模板:记录复现步骤、日志截图、环境配置(EDA工具版本、工艺节点)。
四、项目管理之SignOff管理
1. 关键节点与流程
阶段划分:
阶段 | 输入文档 | 输出成果 |
---|---|---|
RTL SignOff | 覆盖率报告 | RTL签核确认书 |
物理设计SignOff | 时序收敛报告、功耗分析 | 物理设计验收报告 |
TapeOut SignOff | GDSII文件、DRC/LVS通过证明 | 流片授权书 |
角色与职责:
设计经理:确保代码符合PRS要求,组织评审会议。
客户代表:签署最终验收文件,确认需求闭环。
2. 检查表示例(部分)
RTL SignOff Checklist:
功能覆盖率≥95%(使用VCS/UVM生成报告)。
静态时序分析(STA)无违规路径。
跨时钟域(CDC)验证通过(Spyglass检查结果)。
TapeOut SignOff Checklist:
Foundry提供的DRC/LVS全通过(Calibre报告)。
封装热仿真结果符合规格(Tjmax≤125℃,使用ANSYS仿真)。
3. 风险应对与升级机制
未通过处理流程:
根因分析:24小时内召开紧急会议,确定问题来源(如时序、功耗)。
快速修复:抽调专家组成“攻坚小组”,优先分配资源(如服务器资源、EDA License)。
二次评审:修复后需重新提交全量验证报告,缩短审批周期至48小时。
五、芯片回片测试管理
1. 测试流程与工具链
阶段详解:
Bring-Up测试:
目标:确认芯片基础功能正常(电源、时钟、复位)。
工具:示波器(Keysight)、逻辑分析仪(Synopsys Identium)。
自动化脚本:LabVIEW控制仪器采集数据,生成波形对比报告。
功能测试:
用例设计:基于PRS编写测试场景(如DDR4 3200MHz读写压力测试)。
执行框架:Python + Pytest,集成Jenkins每日定时执行并生成HTML报告。
性能与功耗测试:
性能指标:实测AI算力(使用MLPerf基准)、内存带宽(Stream测试)。
功耗分析:动态功耗(PrimeTime-PX)、待机功耗(实验室实测)。
2. 异常处理与根因分析
分级响应机制:
异常级别 | 定义 | 处理流程 |
---|---|---|
P0 | 芯片无法启动 | 立即暂停测试,启动FA分析流程 |
P1 | 关键功能失效(如PCIe链路) | 24小时内提供临时解决方案 |
P2 | 非关键功能异常(如LED显示) | 记录并纳入下一版本修复计划 |
根因分析工具:
硬件故障:X光检测(封装焊接)、FIB(聚焦离子束)电路修补。
软件问题:GDB调试、日志追踪(ELK栈聚合分析)。
3. 案例分析
案例:某AI芯片回片后发现PCIe链路训练失败,通过调整SerDes参数并在FPGA原型验证,5天内修复,节省流片成本200万美元。
六、芯片平台验收管理
1. 验收指标与测试方法
功能验收:
通过率:所有测试用例100%通过(允许≤3个Minor缺陷,需提供规避方案)。
压力测试:连续运行72小时(如视频转码任务),无宕机或性能衰减。
性能验收:
算力达标:实测性能≥标称值90%(使用行业标准Benchmark)。
功耗合规:典型场景功耗≤设计目标110%(实测值与仿真值偏差≤10%)。
可靠性验收:
环境测试:-40℃~125℃高低温循环,功能正常。
MTBF:平均无故障时间≥10万小时(加速寿命测试推算)。
2. 验收流程与文档
内部预验收:
输出文档:《预验收报告》(含测试摘要、缺陷清单、改进建议)。
评审会议:SE(系统工程师)、PM、客户代表三方会签。
客户验收:
现场测试:客户指定场景验证(如5G基站实际部署)。
签署文件:《最终验收协议》(明确质保期、后续支持条款)。
3. 不达标处理方案
协商解决:
性能不达标:提供软件优化补丁或降低售价(如性能为标称值80-90%)。
功能缺陷:签订补充协议,承诺下一版本免费升级。
返工流程:
责任划分:设计缺陷由研发团队承担流片成本,生产问题由Foundry负责。
NPI流程:重新启动新产品导入,优化设计并缩短验证周期(复用30%测试用例)。