FIR滤波器文献笔记-CSDN博客

本文链接：https://blog.csdn.net/m0_46612488/article/details/110185133

本文探讨了FIR滤波器的各种并行化算法，包括基于GPU的并行化方法、快速算法及DSP实现、高效2^n并行快速FIR算法及其结构设计。文中还对比了不同并行化技术的特点，并介绍了基于FFA算法的并行FIR滤波器设计。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关于FIR滤波器各个文献中可能有用的知识笔记

文章目录

O、基于GPU的FIR滤波并行化算法的研究与实现
一、一种FIR数字滤波器的快速算法及DSP实现
- N阶FIR数字滤波器的出y(m)的快速算法:
- 线性相位FIR滤波器算法分析
二、高效2~n并行快速FIR算法及其实现方法
- 基于 FFA 的 2、4 与 8 并行 FIR 滤波器
- 基于FFA的2^n并行FIR滤波器算法
三、基于FPGA并行FIR滤波器的设计与实现
四、基于快速卷积算法的低复杂度并行FIR 滤波器的研究与实现

O、基于GPU的FIR滤波并行化算法的研究与实现

overlap-save方法

所要设计的滤波并行算法主要针对较大尺度的采样信号进行数字滤波。将信号划分成相互比邻但又不重叠的子块，每块的长度都为L，然后对每一个子块信号滤波后，再拼凑在一起形成总的输出。

每个输入信号子块的长度为L，每个信号子块是由上个子块的最后M-1个样点和当前L个样点组成的。
M：滤波器的单位脉冲响应长度。

M阶滤波器当前的输出样点是由当前的输入样点和过去的M-1个输入样点与滤波器脉冲响应计算得到的。如果直接将长度为L的信号子块进行滤波，那么这个子块的前M-1个输出样点值的计算是错误的。

为了避免上述错误，overlap-save将上一个信号子块的最后M-1个样点值保存下来，和当前的L个抽样点组成长度为N=M-1+L的子块，可以称M-1个为状态。

在幵始滤波之前，将第一个子块的状态置零。
信号子块得序列如下所示
在这里插入图片描述

在这里插入图片描述
///不对状态进行滤波的意思
///M=L/p??
///并行是如何做到的？？

在这里插入图片描述

一、一种FIR数字滤波器的快速算法及DSP实现

FIR滤波器设计在数字信号处理领域居于重要的地位, 而且可以做成具有严格的线性相位，而且同时可以具有任意的幅度响应，因而在工程实际中得到了广泛的应用。

FIR数字滤波器本质上是一种线性卷积的运算,当数字滤波器的阶次N很大时,计算量很大,计算速度很慢,达不到系统对实时性的要求。

基于窗函数的FIR滤波器的性能是由所选用的窗函数和滤波器阶数来决定。为获得良好的滤波器性能,增加滤波器的阶数是一个有效的途径,但这会增加运算量,并且会影响到DSP的实时性。如何在增加阶数的同时不使运算量过多地增加是一个普遍关注的实际问题。

N阶FIR数字滤波器的出y(m)的快速算法:

(1)由x(m),x(m-1),x(m-2),…,x(1),x(0)的低位构成一个二进制数P1=a0a1…am-2am-1am,将该二制数中所有非零ai所对应的h(i)相加得到一个二进数S1;

(2)由x(m),x(m-1),x(m-2),…,x(1),x(0)的数第二位构成一个二进制数P2= b0b1…bm-2bm-1bm,将二进制数中所有非零bi所对应的h(i)相加得到一个二制数S2;…

(3)由x(m),x(m-1),x(m-2),…,x(1),x(0)的高位构成一个二进制数Pt= c0c1…cm-2cm-1cm,将该二制数中所有非零ci所对应的h(i)相加得到一个二进数St;

(4)将St左移t-1位得S′t;将St-1左移t-2位得S′t-…;将S2左移1位得S′2。

(5) S1+ S′2+…+ S′t-1+ S′t为所求y(m)。
如果为了提高计算精度，x(n)的位宽可以加长。

线性相位FIR滤波器算法分析

在线性相位FIR滤波器中
当N为偶数个点：
可以使用以FIRS指令为中心的快速算法[任天庆.铸造设备自动控制系统设计[M].北京：国防工业出版社,1990],但无法用来设计高通、带阻滤波器;

/《铸造设备自动控制系统设计》这本书还没找到资料，所以里面的快速算法具体是啥也不清楚*/*

当N为奇数个点：
FIR冲击响应可以用来设计高通、带阻滤波器
缺点：只能使用效率较低的以MAC指令为中心的算法。因为以FIRS指令为中心的算法要求使用两个大小一样的缓冲区,而这对于奇数点情况直接实现起来是困难的。

优势：可以用来描述多种类型的滤波器,应用范围广。

针对这一矛盾,是否能经过理论推导,使奇数个点的FIR冲击响应可以一种特殊的方式同样使用高效的FIRS指令,从而在使用高阶特殊类型的滤波器时大幅减少运算量。

解决矛盾的方法：

在这里插入图片描述

在这里插入图片描述

对（1.2）式中的第一项：
可以利用快速算法进行计算，可以提高运算效率，且第一项是输入信号采样点前一半序列的样点与后一半序列的样点的和,并且可序列是偶数个点，因此这一项完全可以使用以FIRS指令为中心的高效算法。
对于第二项：
因为只有一项相乘，对整体运算效率不会有多大影响可以忽略。

二、高效2~n并行快速FIR算法及其实现方法

该文提出了高效 2^n 并行 FFA，并给出了其通用算法形式与实现架构；同时讨论了对于非 2n 并行 FFA 的实现架构。通过算法分析和硬件效率评估，本文算法及其实现架构在相同的并行度和性能条件下，比传统并行算法有显著改善，且随着并行度的增加，这种优势更加明显。该算法在高并行 FIR 滤波器的应用中有很大优势。

背景：
FIR 又称为非递归型滤波器，是数字信号处理系统中最基本的模块之一。FIR 滤波器在通信、雷达、图像、模式识别等领域都有着广泛的应用。某些应用领域如光通信、5G 通信系统、高速遥感卫星接收机等，对滤波器的速率要求越来越高，而移动设备、手持终端等领域对设备的功耗有着严格的要求。

并行技术：
可以提高滤波器的信息吞吐率，同时降低设备功耗。
传统并行技术的局限性：
使硬件复杂度随并行度线性增加，并行滤波器的硬件效率并没有得到改善，难以支持高并行度的应用。

FFA打破局限：

可仅用约 2L−1 个 N/L 抽头的子滤波器实现 L 并行 N 抽头的 FIR 滤波器[3]。文献 [7] 提出了基于 FFA 的 2 和 4 并行 FIR 滤波器的理论形式与结构，文献 [8] 介绍了基于 FFA 的 8 并行 FIR 滤波器，文献 [9] 改进了基于 FFA 的 3 并行 FIR 滤波器，文献 [10] 给出了基于 FFA 的 16 并行 FIR 滤波器的 ASIC 实现方式。然而，目前的研究工作没有给出基于 FFA 的 2^n 并行 FIR 滤波器的通用算法。

此外，在高速 FIR 滤波器或滤波器组滤波等应用场合[11-12]，对 FIR 滤波器并行度的要求达到了160 并行甚至更高。目前基于 FFA 的算法没有提出针对高并行滤波器的设计架构，很多工程实践仍然采用传统并行 FIR 滤波器的实现方式，造成了很大的硬件资源浪费。

基于 FFA 的 2、4 与 8 并行 FIR 滤波器

基于 FFA 的 2、4、8 并行 FIR 滤波器的算法

在这里插入图片描述

基于FFA的2^n并行FIR滤波器算法

基于 FFA 的 2、4、8 并行 FIR 滤波器的算法形式，推导出 2n 并行算法，并设计了基于 FFA的 2^n 并行与非 2^n 并行的 FIR 滤波器整体结构。

在这里插入图片描述

此公式对结构设计起主要指导作用。
PX（无下标简写）：首先对输入进行预加操作
H(PX)：对预加的结果进行子滤波
Q(HPX)：对子滤波的结果的后级加法与延时

三、基于FPGA并行FIR滤波器的设计与实现

降低的乘法次数是通过增加加法次数的代价得到的。快速 FIR 算法（Fast FIR Algorithm，FFA）的基本思想就是通过这种方法降低乘法次数，但会额外增加加法运算。在 FFA 算法结构中，以 12 阶 2 并行结构的滤波器为例，传统并行结构使用到 4个滤波器共 24 次乘法运算，FFA 算法则需要 3 个子滤波器共 15 次乘法运算（其中一个子滤波器使用对称结构）。当滤波器阶数较高和并行度较大的时候，使用 FFA 算法可以节省更多的乘法次数。

在这里插入图片描述](https://img-blog.csdnimg.cn/20201130134937109.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L20wXzQ2NjEyNDg4,size_16,color_FFFFFF,t_70)

在这里插入图片描述

参考文献：
[1]赵秀鸟, 仲佳嘉. 一种FIR数字滤波器的快速算法及DSP实现[J]. 数字技术与应用, 2011(06):131-132.

二、胡剑浩*,曾维棋,费超.高效2~n并行快速FIR算法及其实现方法[J]电子科技大学学报,2020(03):Vol.49 No.2

[3] TIAN J, LI G, LI Q. Hardware-efficient parallel structures
for linear-phase FIR digital filter[C]//2013 IEEE 56th
International Midwest Symposium on Circuits and Systems

[4] SELVAKUMAR J, BHASKAR V, NARENDRAN S.FPGA based efficient fast FIR algorithm for higher order digital fir filter[C]//2012 International Symposium on
Electronic System Design (ISED). Kolkata, India: [s.n.],
2012: 43-47. [5] LEIGH G M. Fast FIR algorithms for the continuous
wavelet transform from constrained least squares[J]. IEEE
Transactions on Signal Processing, 2013, 61(1): 28-37. [6] KYRITSIS E, PEKMESTZI K. Hardware efficient fast FIR
filter based on Karatsuba algorithm[C]//2016 5th
International Conference on Modern Circuits and Systems
Technologies (MOCAST). Thessaloniki, Greece: [s.n.],
2016: 1-4.
[7] PARKER D A, PARHI K K. Area-efficient parallel FIR digital filter implementations[C]//Proceedings of
International Conference on Application Specific Systems,
Architectures and Processors. Chicago, USA: [s.n.], 1996:
93-111.
[8] PARHI K K. VLSI digital signal processing systems:Design and implementation[M]. New York: John Wiley & Sons, 2007.
[9] TSAO Y C, CHOI K. Hardware-efficient VLSIimplementation for 3-parallel linear-phase FIR digital filter of odd length[C]//2012 IEEE International Symposium on Circuits and Systems. Seoul, Korea: IEEE, 2012: 998-1001.
[10] ANNANGI S, PULI R. ASIC implementation of efficient
16-parallel fast FIR algorithm filter structure[C]//2017 8th
International Conference on Computing, Communication and Networking Technologies (ICCCNT). Delhi, India:
IEEE, 2017: 1-5.
[11] LEI M, MA Z. Design of high-speed FIR filter with distributed parallel structure[C]//2016 IEEE Information Technology, Networking, Electronic and Automation Control Conference. Chongqing, China: IEEE, 2016: 511-
514.
[12] PARK S, SHIN D, KOH K J, et al. A low-power 3.25GS/s 4th-order programmable analog FIR filter using split-CDAC coefficient multipliers for wideband analog signal
processing[C]//2018 IEEE International Solid-State Circuits Conference (ISSCC). San Francisco, USA: IEEE,2018: 62-64.