FPGA上如何求32个输入的最大值和次大值：分治

最新推荐文章于 2024-01-14 22:25:23 发布

VIP文章 weixin_30662849

最新推荐文章于 2024-01-14 22:25:23 发布

阅读量1.5k

点赞数 1

文章标签：人工智能面试

原文链接：http://www.cnblogs.com/sea-wind/p/8384596.html

版权

上午在论坛看到个热帖，里头的题目挺有意思的，简单的记录了一下。

0. 题目　

在FPGA上实现一个模块，求32个输入中的最大值和次大值，32个输入由一个时钟周期给出。（题目来自论坛，面试题，如果觉得不合适请留言删除）

从我个人的观点来看，这是一道很好的面试题目：

其一是这大概是某些机器学习算法实现过程中遇到的问题的简化，是很有意义的一道题目；
其二是这道题目不仅要求FPGA代码能力，还有很多可以在算法上优化的可能；

当然，输入的位宽可能会影响最终的解题思路和最终的实现可能性。但位宽在一定范围内，譬如8或者32，解题的方案应该都是一致的，只是会影响最终的频率。后文针对这一题目做具体分析。（题目没有说明重复元素如何处理，这里认为最大值和次大值可以是一样的，即计算重复元素）

1. 解法

从算法本身来看，找最大值和次大值的过程很简单；通过两次遍历：第一次求最大值，第二次求次大值; 算法复杂度是O(2n)。FPGA显然不可能在一个周期内完成如此复杂的操作，一般需要流水设计。这一方法下，整个结构是这样的

通过比较，求最大值，通过流水线实现两两之间的比较，32-16-8-4-2-1通过5个clk的延迟可以求得最大值；
由于需要求取次大值，因此需要确定最大值的位置，在求最大值的过程中需要维持最大值的坐标；
最大值坐标处取值清零（置为最小）
通过流水线实现两两之间的比较，32-16-8-4-2-1，再经过5个clk的延迟可以求得次大值；

这种解法有若干个缺点，包括：延迟求最大值和次大值分别需要5clk延时，总延迟会超过10个cycles；资源占用较高，维持最大值坐标和清零操作耗费了较多资源，同时为了计算次大值，需要将输入寄存若干个周期，寄存器消耗较多。

另一个种思路考虑同时求最大值和次大值，由于这一逻辑较为复杂，可以将其流水化，如下图。(以8输入为例，32输入需要增加两级)

其中sort模块完成对4输入进行排序，得到最大值和次大值输出的功能。4个数的排序较为复杂，这一过程大概需要2-3个cycles完成。对于32输入而言，输入数据经过32-16-8-4-2输出得到结果，延迟大概也有10个周期。

2. 分治

如果需要在FPGA上实现一个特定的算法，那么去找一个合适的方法去实现就好了；但如果是要实现一个特定的功能，那么需要找一个优秀的且适合FPGA实现的方法。

求最大值和次大值是一个很不完全的排序，通过简单的查找复杂度为O(2n)，且不利于硬件实现。对于排序而言，无论快速排序或者归并排序都用了分治的思想，如果我们试图用分治的思想来解决这一问题。考虑当只有2个输入时，通过一个比较就可以得到输出，此时得到的是一个长度为2的有序数组。如果两个有序数组，那么通过两次比较就可以得到最大值和次大值。采用归并排序的思想，查找最大值和次大值的复杂度为O(1.5n)(即为n/2+n/2+n/4… ,不知道有没有算错）。采用归并排序的思想，从算法时间复杂度上看更为高效了。

那么这一方案是否适合FPGA实现呢，答案是肯定的。分治的局部性适合FPGA的流水实现，框图如下。(以8输入为例，32输入需要增加两级)

其中meg模块内部有两级的比较器，一般而言1clk就可以完成，输入数据经过32-32-16-8-4-2得到结果，延迟为5个时钟周期。实现代码如下

最低0.47元/天解锁文章

weixin_30662849

关注

1
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
FPGA上如何求32个输入的最大值和次大值：分治

上午在论坛看到个热帖，里头的题目挺有意思的，简单的记录了一下。0. 题目　在FPGA上实现一个模块，求32个输入中的最大值和次大值，32个输入由一个时钟周期给出。（题目来自论坛，面试题，如果觉得不合适请留言删除）从我个人的观点来看，这是一道很好的面试题目：其一是这大概是某些机器学习算法实现过程中遇到的问题的简化，是很有意义的一道题目；其二是...
复制链接

扫一扫