写在前面的话
项目介绍:
卷积神经网络硬件加速器是一种专门设计用于提高神经网络计算性能的硬件设备。它通过在硬件级别上对神经网络模型的计算任务进行优化,以实现更快、更高效的计算,并显著减少能耗和计算成本。硬件加速器通常包括专用的处理单元、存储器和并行计算架构等组件,可以在较短的时间内处理大规模的神经网络计算任务。整个项目是基于先前相关的研究工作展开的,整体包含涵盖了算法设计、Verilog代码设计、仿真验证以及通过FPGA完成了最终验证。
重要性:
- 神经网络模型的复杂度不断增加,需要庞大的计算资源来训练和推断。传统的通用计算硬件无法满足这种需求,而神经网络硬件加速器则能够充分利用并行计算和专门优化的算法,提供高效的计算能力,加速神经网络模型的训练和推断过程。
- 其次,神经网络硬件加速器可以显著降低能耗和计算成本。由于神经网络模型的计算量很大,传统的计算设备在进行神经网络计算时会消耗大量的能源,导致高昂的运行成本。而神经网络硬件加速器通过专门的架构设计和算法优化,能够以更高的能效执行计算任务,降低功耗和运行成本,对于大规模的神经网络应用具有重要的经济意义。
对于找工作的帮助:
- 随着人工智能技术的广泛应用,越来越多的企业和研究机构对拥有神经网络硬件加速器相关知识和经验的人才需求增加。掌握神经网络硬件加速器的原理和应用,能够帮助个人在就业市场上脱颖而出。
- 此外,神经网络硬件加速器在云计算和边缘计算等领域得到广泛应用,特别是在处理大规模数据和实时决策的场景下。因此,拥有神经网络硬件加速器的相关背景和实践经验,将为求职者在云计算和智能设备等领域的工作机会带来更多选择。对于找工作而言,拥有神经网络硬件加速器相关知识和经验,不仅可以增加个人竞争力,还能为求职者提供更广阔的职业发展机会。
项目整体框图
项目整体框图如下,以CNN硬件加速器为核心,输入数据可为传感器阵列数据或者摄像头采集的图片信息,采用MNIST作为训练和测试数据。整个网络包含两层卷积、两层最大池化以及一层全连接层,经过CNN加速器后的识别结果回同步输出到显示器上。
神经网络框图
整体采用的神经网络架构如下:共包含两层卷积和两层最大池化以及最后一层全连接层。
1)代码使用Pytorch架构完成
2)数据集为MNIST,大小为2828
3)采用三个55大小的卷积核
4)采用最大池化和Relu激活函数
完整电路框图
整个电路结构如下,主要分为五个部分,分别为:
1、CLK _Unit:时钟管理模块,将200MHz的差分时钟分频为148.5MHz、100MHz、50MHz以及20MHz,其中50MHz的时钟作为系统主时钟,CNN计算核心同步时钟。
2、Data_IN&Buffer:数据输入和缓冲模块,将阵列数据和图像数据通过串口传输并缓存在RAM里,为CNN计算进行缓冲。
3、CNN_Core:卷积计算核心,包含神经网络的所有硬件化加速器电路。
4、Hdmi_Display:Hdmi视频传输芯片控制模块,将卷积神经网络的识别结果和采集的图像进行输出显示。
5、For_Debug:用于外部调试,包含串口发送,将是实时的识别结果输出至上位机和其余外设,协助完成调试工作。
项目难度:⭐⭐⭐⭐⭐
项目推荐度:⭐⭐⭐⭐
项目推荐天数:21~35天
项目简介和学习目的
使用Pytorch完成卷积神经网络的搭建,并移植到Verilog平台完成电路设计、综合以及最终的下板测试环节。整个项目耗时长达半年之久,其中遇见不是Bug,也是花费不少精力进行解决的,感兴趣的同学可以私信我,整个项目还有很多可以优化改进的地方,大家可以在完成学习的基础上进行改进,希望可以帮助大家更好的完成求职!
软件环境要求
整个项目对于初学者要求较高,完成复现需要花费较长的时间搭建软件环境,这里建议大家按需完成学习,循序渐进,可以从神经网络、CNN硬件加速器、RTL代码以及综合调试等方面进行展开,掌握每个模块的功能和相互连接,有条件的可以尝试购买相关的硬件FPGA板,完成整个系统的调试和移植。
要求的软件和EDA环境:
(1)操作系统要求:
Window&Centos
(2)EDA 软件要求:
Vivadao2020、Modelsim、Anaconda
(3)硬件要求:
电脑运行内存 >= 16Gb(便于综合)
FPGA开发板:>= xczu5ev
前仿: Vivadao2020、Modelsim
综合:Vivadao2020
项目学习目的:
(1)熟练掌握复杂项目的工程管理;
(2)熟悉 Verilog HDL仿真、FPGA综合工具以及了解数字IC设计工具及流程;
(3)学习CNN网络的基本结构和基础原理;
(4)学习CNN硬件加速器;
(5)熟练掌握Verilog语法和验证方法;
资源占用&板载功耗
整体资源占用约为20%
卷积核心模块占用如下,其中ila为片上逻辑分析仪,后续可以进行优化,进一步降低资源消耗。
板载功耗如下,采用的FPGA开发板包含PS和PL两大模块,其中主要采用PL端,PS端为辅助程序烧录固化,总功耗0.652W。
综合后占用资源如下,其中蓝色部分为占用的资源分布,绿色为走线。
局部放大如下:
总结
整个项目涵盖了完整的卷积神经网络设计,CNN硬化加速器的Verilog实现和仿真和测试所需脚本和环境配置。需要搭建完整的软件和硬件环境,相对先前列出的开源和初级项目来说,整体难度偏高,适合缺少系统项目经验的求职者。
特地注明:整个项目耗费较长的周期和个人精力,项目收费并且保证独一无二(性价比肯定是重要因素,毕竟都有过学生时代)。感兴趣的同学可以通过私信联系,我始终相信好的知识和项目肯定是收费的,网上也有很多类似的课程和项目,但大多数没有从完整的项目需求出发,代码和工程重复率高,不少同学往往是花了很多钱,却没有学到真正的东西。