FPGA实现SDI视频缩放转PCIE传输，基于GTX+RIFFA架构，提供4套工程源码和技术支持-CSDN博客

本文链接：https://blog.csdn.net/qq_41667729/article/details/141117451

1、前言
- 工程概述
- 免责声明
2、相关方案推荐
3、详细设计方案
4、工程源码1详解-->Kintex7-35T，SDI视频1920x1080缩放到1280x720转PCIE输出版本
5、工程源码2详解-->Kintex7-35T，SDI视频1920x1080缩放到640x480转PCIE输出版本
6、工程源码3详解-->Zynq7100，SDI视频1920x1080缩放到1280x720转PCIE输出版本
7、工程源码4详解-->Zynq7100，SDI视频1920x1080缩放到640x480转PCIE输出版本
8、工程移植说明
9、上板调试验证
10、福利：工程代码的获取

FPGA实现SDI视频缩放转PCIE传输，基于GTX+RIFFA架构，提供4套工程源码和技术支持

1、前言

FPGA实现SDI视频编解码现状；
目前FPGA实现SDI视频编解码有两种方案：一是使用专用编解码芯片，比如典型的接收器GS2971，发送器GS2972，优点是简单，比如GS2971接收器直接将SDI解码为并行的YCrCb422，GS2972发送器直接将并行的YCrCb422编码为SDI视频，缺点是成本较高，可以百度一下GS2971和GS2972的价格；另一种方案是使用FPGA逻辑资源部实现SDI编解码，利用Xilinx系列FPGA的GTP/GTX资源实现解串，利用Xilinx系列FPGA的SMPTE SDI资源实现SDI编解码，优点是合理利用了FPGA资源，GTP/GTX资源不用白不用，缺点是操作难度大一些，对FPGA开发者的技术水平要求较高。有意思的是，这两种方案在本博这里都有对应的解决方案，包括硬件的FPGA开发板、工程源码等等。本设计采用GTX逻辑资源解串方案；

FPGA实现PCIE数据传输现状；
目前基于Xilinx系列FPGA的PCIE通信架构主要有以下2种，一种是简单的、傻瓜式的、易于开发的、对新手友好的XDMA架构，该架构对PCIE协议底层做了封装，并加上了DMA引擎，使得使用的难度大大降低，加之Xilinx提供了配套的Windows和Linux系统驱动和上位机参考源代码，使得XDMA一经推出就让工程师们欲罢不能；另一种是更为底层的、需要设计者有一定PCIE协议知识的、更易于定制化开发的7 Series Integrated Block for PCI Express架构，该IP实现的是PCIe 的物理层、链路层和事务层，提供给用户的是以 AXI4-stream 接口定义的TLP 包，使用该IP 核，需要对PCIe 协议有清楚的理解，特别是对事务包TLP报文格式；本设计采用第二种方案，调用7 Series Integrated Block for PCI Express IP核，加上RIFFA架构实现PCIE通信，7 Series Integrated Block for PCI Express实现底层协议，RIFFA实现TLP报文组包、解包和轻量级DMA功能；本架构既有简单的测速实验，也有视频采集应用；

工程概述

本设计基于RIFFA架构架构实现SDI视频解码缩放转PCIE传输；
输入源为一个3G-SDI相机或者HDMI转3G-SDI盒子，也可以使用HD-SDI或者SD-SDI相机，因为本设计是三种SDI视频自适应的；同轴的SDI视频通过同轴线连接到FPGA开发板的BNC座子，然后同轴视频经过板载的Gv8601a芯片实现单端转差分和均衡EQ的功能；然后差分SDI视频信号进入FPGA内部的GTX高速资源，实现数据高速串行到并行的转换，本博称之为解串；解串后的并行视频再送入Xilinx系列FPGA特有的SMPTE SD/HD/3G SDI IP核，进行SDI视频解码操作并输出BT1120视频，至此，SDI视频解码操作已经完成，可以进行常规的图像处理操作了；然后使用纯verilog实现的BT1120转RGB模块实现视频格式转换后输出RGB888视频；然后使用纯verilog实现的图像缩放模块对输入SDI视频进行缩放操作，本设计由1920x1080缩放为1280x720和640x480，你也可以缩放为自己需要的分辨率；然后使用本博主常用的FDMA图像缓存架构对采集视频做图像缓存，缓存介质为板载DDR3；然后将采集视频从DDR3中读出，送入RIFFA模块做视频数据的TLP包封装，并跨时钟域后输出给Xilinx官方的7 Series Integrated Block for PCI Express IP核实现PCIE物理层、链路层和事务层功能，并以差分数据输出；PCIE视频数据通过PCIE金手指从FPGA板卡发送到PC主机；PC端主机在RIFFA-PCIE驱动的加持下有效识别并读取PCIE数据；PC端调用QT上位机调用RIFFA-PCIE驱动的API实现视频数据显示；由此形成SDI相机+RIFFA+PCIE+QT的高端架构；针对市面上主流的FPGA，本博客提供4套工程源码，具体如下：
在这里插入图片描述
现对上述4套工程源码做如下解释，方便读者理解：

工程源码1

开发板FPGA型号为Xilinx–>Kintex7–35T–xc7k325tffg484-2；输入源为一个3G-SDI相机或者HDMI转3G-SDI盒子，分辨率为1920x1080@60Hz，也可以使用HD-SDI或者SD-SDI相机，因为本设计是三种SDI视频自适应的；同轴的SDI视频通过同轴线连接到FPGA开发板的BNC座子，然后同轴视频经过板载的Gv8601a芯片实现单端转差分和均衡EQ的功能；然后差分SDI视频信号进入FPGA内部的GTX高速资源，实现数据高速串行到并行的转换，本博称之为解串；解串后的并行视频再送入Xilinx系列FPGA特有的SMPTE SD/HD/3G SDI IP核，进行SDI视频解码操作并输出BT1120视频；然后使用纯verilog实现的BT1120转RGB模块实现视频格式转换后输出RGB888视频；然后使用纯verilog实现的图像缩放模块对输入SDI视频进行缩放操作，本设计由1920x1080缩放为1280x720，你也可以缩放为自己需要的分辨率；然后使用本博主常用的FDMA图像缓存架构对SDI视频做2帧乒乓缓存，缓存介质为板载DDR3；然后将采集视频从DDR3中读出，送入RIFFA模块做视频数据的TLP包封装，并跨时钟域后输出给Xilinx官方的7 Series Integrated Block for PCI Express IP核实现PCIE物理层、链路层和事务层功能，并以差分数据输出；PCIE视频数据通过PCIE金手指从FPGA板卡发送到PC主机，输出分辨率为1280x720@60Hz；PC端主机在RIFFA-PCIE驱动的加持下有效识别并读取PCIE数据；PC端调用QT上位机调用RIFFA-PCIE驱动的API实现视频数据显示；由此形成SDI相机+RIFFA+PCIE+QT的高端架构；该工程适用于PCIE接口的SDI视频采集卡应用；

工程源码2

开发板FPGA型号为Xilinx–>Kintex7–35T–xc7k325tffg484-2；输入源为一个3G-SDI相机或者HDMI转3G-SDI盒子，分辨率为1920x1080@60Hz，也可以使用HD-SDI或者SD-SDI相机，因为本设计是三种SDI视频自适应的；同轴的SDI视频通过同轴线连接到FPGA开发板的BNC座子，然后同轴视频经过板载的Gv8601a芯片实现单端转差分和均衡EQ的功能；然后差分SDI视频信号进入FPGA内部的GTX高速资源，实现数据高速串行到并行的转换，本博称之为解串；解串后的并行视频再送入Xilinx系列FPGA特有的SMPTE SD/HD/3G SDI IP核，进行SDI视频解码操作并输出BT1120视频；然后使用纯verilog实现的BT1120转RGB模块实现视频格式转换后输出RGB888视频；然后使用纯verilog实现的图像缩放模块对输入SDI视频进行缩放操作，本设计由1920x1080缩放为640x480，你也可以缩放为自己需要的分辨率；然后使用本博主常用的FDMA图像缓存架构对SDI视频做2帧乒乓缓存，缓存介质为板载DDR3；然后将采集视频从DDR3中读出，送入RIFFA模块做视频数据的TLP包封装，并跨时钟域后输出给Xilinx官方的7 Series Integrated Block for PCI Express IP核实现PCIE物理层、链路层和事务层功能，并以差分数据输出；PCIE视频数据通过PCIE金手指从FPGA板卡发送到PC主机，输出分辨率为640x480@60Hz；PC端主机在RIFFA-PCIE驱动的加持下有效识别并读取PCIE数据；PC端调用QT上位机调用RIFFA-PCIE驱动的API实现视频数据显示；由此形成SDI相机+RIFFA+PCIE+QT的高端架构；该工程适用于PCIE接口的SDI视频采集卡应用；

工程源码3

开发板FPGA型号为Xilinx–>Zynq7100–xc7z100ffg900-2；输入源为一个3G-SDI相机或者HDMI转3G-SDI盒子，分辨率为1920x1080@60Hz，也可以使用HD-SDI或者SD-SDI相机，因为本设计是三种SDI视频自适应的；同轴的SDI视频通过同轴线连接到FPGA开发板的BNC座子，然后同轴视频经过板载的Gv8601a芯片实现单端转差分和均衡EQ的功能；然后差分SDI视频信号进入FPGA内部的GTX高速资源，实现数据高速串行到并行的转换，本博称之为解串；解串后的并行视频再送入Xilinx系列FPGA特有的SMPTE SD/HD/3G SDI IP核，进行SDI视频解码操作并输出BT1120视频；然后使用纯verilog实现的BT1120转RGB模块实现视频格式转换后输出RGB888视频；然后使用纯verilog实现的图像缩放模块对输入SDI视频进行缩放操作，本设计由1920x1080缩放为1280x720，你也可以缩放为自己需要的分辨率；然后使用本博主常用的FDMA图像缓存架构对SDI视频做2帧乒乓缓存，缓存介质为Zynq PL端DDR3，不建议使用PS端DDR3做缓存，因为Zynq的HP接口数据位宽仅有64bit，可能影响SDI视频传输效率；然后将采集视频从DDR3中读出，送入RIFFA模块做视频数据的TLP包封装，并跨时钟域后输出给Xilinx官方的7 Series Integrated Block for PCI Express IP核实现PCIE物理层、链路层和事务层功能，并以差分数据输出；PCIE视频数据通过PCIE金手指从FPGA板卡发送到PC主机，输出分辨率为1280x720@60Hz；PC端主机在RIFFA-PCIE驱动的加持下有效识别并读取PCIE数据；PC端调用QT上位机调用RIFFA-PCIE驱动的API实现视频数据显示；由此形成SDI相机+RIFFA+PCIE+QT的高端架构；该工程适用于PCIE接口的SDI视频采集卡应用；

工程源码4

开发板FPGA型号为Xilinx–>Zynq7100–xc7z100ffg900-2；输入源为一个3G-SDI相机或者HDMI转3G-SDI盒子，分辨率为1920x1080@60Hz，也可以使用HD-SDI或者SD-SDI相机，因为本设计是三种SDI视频自适应的；同轴的SDI视频通过同轴线连接到FPGA开发板的BNC座子，然后同轴视频经过板载的Gv8601a芯片实现单端转差分和均衡EQ的功能；然后差分SDI视频信号进入FPGA内部的GTX高速资源，实现数据高速串行到并行的转换，本博称之为解串；解串后的并行视频再送入Xilinx系列FPGA特有的SMPTE SD/HD/3G SDI IP核，进行SDI视频解码操作并输出BT1120视频；然后使用纯verilog实现的BT1120转RGB模块实现视频格式转换后输出RGB888视频；然后使用纯verilog实现的图像缩放模块对输入SDI视频进行缩放操作，本设计由1920x1080缩放为640x480，你也可以缩放为自己需要的分辨率；然后使用本博主常用的FDMA图像缓存架构对SDI视频做2帧乒乓缓存，缓存介质为Zynq PL端DDR3，不建议使用PS端DDR3做缓存，因为Zynq的HP接口数据位宽仅有64bit，可能影响SDI视频传输效率；然后将采集视频从DDR3中读出，送入RIFFA模块做视频数据的TLP包封装，并跨时钟域后输出给Xilinx官方的7 Series Integrated Block for PCI Express IP核实现PCIE物理层、链路层和事务层功能，并以差分数据输出；PCIE视频数据通过PCIE金手指从FPGA板卡发送到PC主机，输出分辨率为640x480@60Hz；PC端主机在RIFFA-PCIE驱动的加持下有效识别并读取PCIE数据；PC端调用QT上位机调用RIFFA-PCIE驱动的API实现视频数据显示；由此形成SDI相机+RIFFA+PCIE+QT的高端架构；该工程适用于PCIE接口的SDI视频采集卡应用；

免责声明

本工程及其源码即有自己写的一部分，也有网络公开渠道获取的一部分(包括CSDN、Xilinx官网、Altera官网等等)，若大佬们觉得有所冒犯，请私信批评教育；基于此，本工程及其源码仅限于读者或粉丝个人学习和研究，禁止用于商业用途，若由于读者或粉丝自身原因用于商业用途所导致的法律问题，与本博客及博主无关，请谨慎使用。。。

2、相关方案推荐

我已有的PCIE方案

我的主页有PCIE通信专栏，该专栏基于XDMA的轮询模式实现与QT上位机的数据交互，既有基于RIFFA实现的PCIE方案，也有基于XDMA实现的PCIE方案；既有简单的数据交互、测速，也有应用级别的图像采集传输，以下是专栏地址：
点击直接前往
此外，我的主页有中断模式的PCIE通信专栏，该专栏基于XDMA的中断模式实现与QT上位机的数据交互，以下是专栏地址：点击直接前往
此外，还有基于RIFFA架构的PCIE通信专栏，以下是专栏地址：
点击直接前往

本博已有的 SDI 编解码方案

我的博客主页开设有SDI视频专栏，里面全是FPGA编解码SDI的工程源码及博客介绍；既有基于GS2971/GS2972的SDI编解码，也有基于GTP/GTX资源的SDI编解码；既有HD-SDI、3G-SDI，也有6G-SDI、12G-SDI等；专栏地址链接如下：
点击直接前往

本博已有的FPGA图像缩放方案

我的主页目前有FPGA图像缩放专栏，改专栏收录了我目前手里已有的FPGA图像缩放方案，从实现方式分类有基于HSL实现的图像缩放、基于纯verilog代码实现的图像缩放；从应用上分为单路视频图像缩放、多路视频图像缩放、多路视频图像缩放拼接；从输入视频分类可分为OV5640摄像头视频缩放、SDI视频缩放、MIPI视频缩放等等；以下是专栏地址：
点击直接前往

3、详细设计方案

设计框图

工程详细设计方案框图如下：
在这里插入图片描述

SDI 输入设备

SDI 输入设备可以是SDI相机，代码兼容HD/SD/3G-SDI三种模式；SDI相机相对比较贵，预算有限的朋友可以考虑用HDMI转SDI盒子模拟SDI相机，这种盒子某宝一百块左右；当使用HDMI转SDI盒子时，输入源可以用笔记本电脑，即用笔记本电脑通过HDMI线连接到HDMI转SDI盒子的HDMI输入接口，再用SDI线连接HDMI转SDI盒子的SDI输出接口到FPGA开发板，如下：
在这里插入图片描述

Gv8601a 均衡器

Gv8601a芯片实现单端转差分和均衡EQ的功能，这里选用Gv8601a是因为借鉴了了Xilinx官方的方案，当然也可以用其他型号器件。Gv8601a均衡器原理图如下：
在这里插入图片描述

GTX 解串与串化

本设计使用Xilinx特有的GTX高速信号处理资源实现SDI差分视频信号的解串与串化，对于SDI视频接收而言，GTX起到解串的作用，即将输入的高速串行的差分信号解为并行的数字信号；对于SDI视频发送而言，GTX起到串化的作用，即将输入的并行的数字信号串化为高速串行的差分信号；GTX的使用一般需要例化GTX IP核，通过vivado的UI界面进行配置，但本设计需要对SD-SDI、HD-SDI、3G-SDI视频进行自动识别和自适应处理，所以需要使得GTX具有动态改变线速率的功能，该功能可通过DRP接口配置，也可通过GTX的rate接口配置，所以不能使用vivado的UI界面进行配置，而是直接例化GTX的GTXE2_CHANNEL和GTXE2_COMMON源语直接使用GTX资源；此外，为了动态配置GTX线速率，还需要GTX控制模块，该模块参考了Xilinx的官方设计方案，具有动态监测SDI模式，动态配置DRP等功能；该方案参考了Xilinx官方的设计；GTX 解串与串化模块代码架构如下：
在这里插入图片描述

SMPTE SD/HD/3G SDI IP核

SMPTE SD/HD/3G SDI IP核是Xilinx系列FPGA特有的用于SDI视频编解码的IP，该IP配置使用非常简单，vivado的UI界面如下：
在这里插入图片描述
SMPTE SD/HD/3G SDI IP核必须与GTX配合才能使用，对于SDI视频接收而言，该IP接收来自于GTX的数据，然后将SDI视频解码为BT1120视频输出，对于SDI视频发送而言，该IP接收来自于用户侧的的BT1120视频数据，然后将BT1120视频编码为SDI视频输出；该方案参考了Xilinx官方的设计；SMPTE SD/HD/3G SDI IP核代码架构如下：
在这里插入图片描述

BT1120转RGB

BT1120转RGB模块的作用是将SMPTE SD/HD/3G SDI IP核解码输出的BT1120视频转换为RGB888视频，它由BT1120转CEA861模块、YUV422转YUV444模块、YUV444转RGB888三个模块组成，该方案参考了Xilinx官方的设计；BT1120转RGB模块代码架构如下：
在这里插入图片描述

纯Verilog图像缩放模块详解

本设计图像缩放模块使用纯Verilog方案，功能框图如下，由跨时钟FIFO、插值+RAM阵列构成，跨时钟FIFO的目的是解决跨时钟域的问题，比如从低分辨率视频放大到高分辨率视频时，像素时钟必然需要变大，这是就需要异步FIFO了，插值算法和RAM阵列具体负责图像缩放算法层面的实现；
在这里插入图片描述
插值算法和RAM阵列以ram和fifo为核心进行数据缓存和插值实现，设计架构如下：

图像缩放模块代码架构如下：模块的例化请参考工程源码的顶层代码；

图像缩放模块FIFO的选择可以调用工程对应的vivado工具自带的FIFO IP核，也可以使用纯verilog实现的FIFO，可通过接口参数选择，图像缩放模块顶层接口如下：

module helai_video_scale #(
	//---------------------------Parameters----------------------------------------
	parameter FIFO_TYPE          =	"xilinx",		// "xilinx" for xilinx-fifo ; "verilog" for verilog-fifo
	parameter DATA_WIDTH         =	8       ,		//Width of input/output data
	parameter CHANNELS           =	1       ,		//Number of channels of DATA_WIDTH, for color images
	parameter INPUT_X_RES_WIDTH  =	11      		//Widths of input/output resolution control signals	
)(
	input                            i_reset_n         ,    // 输入--低电平复位信号
	input  [INPUT_X_RES_WIDTH-1:0]   i_src_video_width ,	// 输入视频--即缩放前视频的宽度
	input  [INPUT_X_RES_WIDTH-1:0]   i_src_video_height,	// 输入视频--即缩放前视频的高度
	input  [INPUT_X_RES_WIDTH-1:0]   i_des_video_width ,	// 输出视频--即缩后前视频的宽度
	input  [INPUT_X_RES_WIDTH-1:0]   i_des_video_height,	// 输出视频--即缩后前视频的高度
	input                            i_src_video_pclk  ,	// 输入视频--即缩前视频的像素时钟
	input                            i_src_video_vs    ,	// 输入视频--即缩前视频的场同步信号,必须为高电平有效
	input                            i_src_video_de    ,	// 输入视频--即缩前视频的数据有效信号,必须为高电平有效
	input  [DATA_WIDTH*CHANNELS-1:0] i_src_video_pixel ,	// 输入视频--即缩前视频的像素数据
	input                            i_des_video_pclk  ,	// 输出视频--即缩后视频的像素时钟,一般为写入DDR缓存的时钟
	output                           o_des_video_vs    ,	// 输出视频--即缩后视频的场同步信号,高电平有效
	output                           o_des_video_de    ,	// 输出视频--即缩后视频的数据有效信号,高电平有效
	output [DATA_WIDTH*CHANNELS-1:0] o_des_video_pixel 		// 输出视频--即缩后视频的像素数据
);

FIFO_TYPE选择原则如下：
1：总体原则，选择"xilinx"好处大于选择"verilog"；
2：当你的FPGA逻辑资源不足时，请选"xilinx"；
3：当你图像缩放的视频分辨率较大时，请选"xilinx"；
4：当你的FPGA没有FIFO IP或者FIFO IP快用完了，请选"verilog"；
5：当你向自学一下异步FIFO时，，请选"verilog"；
6：不同FPGA型号对应的工程FIFO_TYPE参数不一样，但选择原则一样，具体参考代码；

2种插值算法的整合与选择
本设计将常用的双线性插值和邻域插值算法融合为一个代码中，通过输入参数选择某一种算法；
具体选择参数如下：

input  wire i_scaler_type //0-->bilinear;1-->neighbor

通过输入i_scaler_type 的值即可选择；

输入0选择双线性插值算法；
输入1选择邻域插值算法；

代码里的配置如下：
在这里插入图片描述

纯Verilog图像缩放模块使用

图像缩放模块使用非常简单，顶层代码里设置了四个参数，举例如下：
在这里插入图片描述
上图视频通过图像缩放模块但不进行缩放操作，旨在掌握图像缩放模块的用法；如果需要将图像放大到1080P，则修改为如下：

当然，需要修改的不仅仅这一个地方，FDMA的配置也需要相应修改，详情请参考代码，但我想要证明的是，图像缩放模块使用非常简单，你都不需要知道它内部具体怎么实现的，上手就能用；

FDMA图像缓存

FDMA图像缓存架构实现的功能是将输入视频缓存到板载DDR3中再读出送RIFFA模块，目的是实现视频同步输出，实现输入视频到输出视频的跨时钟域问题，更好的呈现显示效果；由于调用了Xilinx官方的MIG作为DDR控制器，所以FDMA图像缓存架构就是实现用户数据到MIG的桥接作用；架构如下：
在这里插入图片描述
FDMA图像缓存架构由FDMA控制器+FDMA组成；FDMA实际上就是一个AXI4-FULL总线主设备，与MIG对接，MIG配置为AXI4-FULL接口；FDMA控制器实际上就是一个视频读写逻辑，以写视频为例，假设一帧图像的大小为M×N，其中M代表图像宽度，N代表图像高度；FDMA控制器每次写入一行视频数据，即每次向DDR3中写入M个像素，写N次即可完成1帧图像的缓存，读视频与之一样；同时调用两个FIFO实现输入输出视频的跨时钟域处理，使得用户可以AXI4内部代码，以简单地像使用FIFO那样操作AXI总线，从而达到读写DDR的目的，进而实现视频缓存；本设计图像缓存方式为2帧乒乓缓存；图像缓存模块代码架构如下：
在这里插入图片描述

RIFFA用户数据控制

RIFFA用户数据控制模块的功能为产生读视频控制信号，控制视频读出并写入RIFFA模块；代码里设置了状态机，首先接收RIFFA模块的读数据请求，然后生成读视频控制信号控制视频读出，再根据RIFFA用户写时序将视频写入RIFFA，当写完一帧图像后再回来初始状态，由此形成循环；代码架构如下：
在这里插入图片描述

RIFFA架构详解

本设计使用的RIFFA 版本为RIFFA1.0；
RIFFA （Reusable Integration Framework for FPGA Accelerators）是一个简单的框架，用于通过 PCI Express 总线将数据从主机 CPU 传输到 FPGA。该框架需要一个支持 PCIe 的工作站和一个带有 PCIe 连接器的主板上的 FPGA。RIFFA支持Windows和Linux，Altera和Xilinx，并绑定了C / C++，Python，MATLAB和Java。在软件方面有两个主要功能：数据发送和数据接收。这些函数通过 C/C++、Python、MATLAB 和 Java 中的用户库公开。该驱动程序支持每个系统多个 FPGA（最多 5 个）。软件绑定适用于 Linux 和 Windows 操作系统。用户只需编写几行代码即可与FPGA IP核进行通信。在硬件方面，用户访问具有独立发送和接收信号的接口。这些信号通过FIFO接口提供交易握手和第一个单词，用于读取/写入数据。无需了解总线地址、缓冲区大小或 PCIe 数据包格式。只需在FIFO接口上发送数据，在FIFO接口上接收数据即可。RIFFA不依赖于PCIe桥接器，因此不受网桥实现的限制。相反，RIFFA 直接与 PCIe 端点配合使用，并且运行速度足够快，使 PCIe 链路饱和。软件和硬件界面都得到了极大的简化。RIFFA架构如下：
在这里插入图片描述
RIFFA纯verilog代码架构如下：

复杂的代码架构需要长时间的品读才能消化，代码中提供了注释，感兴趣的可以去仔细研读并修改为自己项目需要的情景，对于普通开发者而言，其实只需要掌握RIFFA的用户逻辑即可完成数据读写操作，至于TLP包的封装与解包等操作，代码中已经做好了，一般不需要修改，除非需要定制功能和性能优化外；RIFFA用户逻辑接口及其详细注释如下：该接口位于riffa_wrapper.v；
在这里插入图片描述
RIFFA 框架不依赖 PCIe Bridge ，因此它不受桥连接的控制，这就实现了PCIe 通信链路的高带宽。下图显示了使用 32 位，64 位以及 128 位接口的RIFFA 框架性能图，图中的实线为理论上最大的带宽值，虚线为可实现的最大带宽值。PCIe Gen1 以及 PCIe Gen2 都是使用 8B/10B 编码方式，理论上的最大带宽利用率为 80%，在下图中我们可以看出在使用 32 位，64 位接口的情况下，RIFFA 框架可以实现理论上的最大带宽利用率 80%左右；在 128 位接口的情况下最大带宽利用率为 76%左右；
在这里插入图片描述
以PCIEX4为例，RIFFA模块资源消耗如下：

Xilinx 7 Series Integrated Block for PCI Express

7 Series Integrated Block for PCI Express是Xilinx官方推出的集成在FPGA内部的PCIE硬核IP；主要实现的是PCIe 的物理层、链路层和事务层，提供给用户的是以 AXI4-stream 接口定义的TLP 包，使用该IP 核，需要对PCIe 协议有清楚的理解，特别是对事务包TLP报文格式；7 Series Integrated Block for PCI Express例化使用十分简单，只是配置项比较多，但大部分保持默认即可，一般也用不到那么多功能，最主要的配置项如下：
在这里插入图片描述
7 Series Integrated Block for PCI Express在代码中调用如下：

RIFFA驱动及其安装

本设计提供RIFFA驱动源码，该源码既包括Windows也包括Linux，并提供Windows下的驱动安装可执行文件，如下：
在这里插入图片描述
Windows下驱动安装步骤如下：友情提示，Windows下驱动秩序安装一次即可；
第一步：使系统禁用签名并进入测试模式，方法如下：

也可百度其他方法实现上述目的，完成后电脑屏幕右下角应有如下显示：
在这里插入图片描述
第二步：修改可执行文件的兼容性，方法如下：

第三步：安装驱动，方法如下：

驱动装好后，下载FPGA工程bit，然后重启电脑，打开我的电脑–>管理–>设备管理器，应看到如下设备：

QT上位机

PC端调用QT上位机调用RIFFA-PCIE驱动的API实现视频数据显示；QT上位机源码如下：
在这里插入图片描述
电脑端接收到 FPGA 开发板传来的数据是用户应用程序通过调用库函数fpga_rec才开始接收来自 FPGA 开发板的读请求，然后电脑端将数据分包接收；上位机运行样式如下：

工程源码架构

工程源码由Bolck Design设计和模块例化组成，Bolck Design主要为基于FDMA架构的图像缓存；模块例化则为包括Bolck Design在内的整体代码架构；本博客提供4套Vivado工程源码，以工程源码1为例Bolck Design设计如下，其他工程与之类似：
在这里插入图片描述
以工程源码1为例，综合后的工程源码架构如下：

PCIE上板调试注意事项

1：必须先安装RIFFA-PCIE驱动，详情请参考第3章节的《RIFFA驱动及其安装》，驱动只需安装一次；
2：下载FPGA工程bit后需要重启电脑，电脑才能识别到RIFFA-PCIE驱动；程序固化后也需要重启电脑；
3：FPGA板卡插在主机上后一般不需要额外供电，如果你的板子元器件较多功耗较大，则需要额外供电，详情咨询开发板厂家，当然，找我买板子的客户可以直接问我；
4：PCIE调试需要电脑主机，但笔记本电脑理论上也可以外接出来PCIE，详情百度自行搜索一下，电脑主机PCIE插槽不方便操作时可以使用延长线接出来，某宝有卖；

FPGA工程编译注意事项

由于RIFFA源码包含的头文件众多，所以在编译工程之前，必须设置全局包含文件，否则编译器找不到头文件导致报错，设置如下：
在这里插入图片描述

4、工程源码1详解–>Kintex7-35T，SDI视频1920x1080缩放到1280x720转PCIE输出版本

开发板FPGA型号：Xilinx-Kintex7–35T–xc7k325tffg484-2；
FPGA开发环境：Vivado2019.1；
QT开发环境：VS2015 + Qt 5.12.10；
输入：3G-SDI相机或HDMI转SDI盒子，分辨率1920x1080@60Hz；
输出：PCIE2.0，分辨率1280x720@60Hz；
SDI视频解串方案：Xilinx–GTX高速接口解串；
SDI视频解码方案：Xilinx–SMPTE SD/HD/3G SDI解码；
图像缩放方案：自研纯Verilog图像缩放；
图像缩放实例：1920x1080缩放到1280x720；
图像缓存方案：FDMA图像缓存+DDR3颗粒；图像2帧乒乓缓存；
PCIE详情：PCIE2.0版本，X4，5GT/s单lane线速率；
PCIE底层方案：Xilinx 7 Series Integrated Block for PCI Express；
PCIE上层方案：RIFFA；
实现功能：FPGA基于GTX+RIFFA架构实现SDI视频缩放转PCIE传输；
工程作用：此工程目的是让读者掌握FPGA基于GTX+RIFFA架构实现SDI视频缩放转PCIE传输的设计能力，以便能够移植和设计自己的项目；
工程Block Design和工程代码架构请参考第3章节的《工程源码架构》小节内容；
工程的资源消耗和功耗如下：
在这里插入图片描述

5、工程源码2详解–>Kintex7-35T，SDI视频1920x1080缩放到640x480转PCIE输出版本

开发板FPGA型号：Xilinx-Kintex7–35T–xc7k325tffg484-2；
FPGA开发环境：Vivado2019.1；
QT开发环境：VS2015 + Qt 5.12.10；
输入：3G-SDI相机或HDMI转SDI盒子，分辨率1920x1080@60Hz；
输出：PCIE2.0，分辨率640x480@60Hz；
SDI视频解串方案：Xilinx–GTX高速接口解串；
SDI视频解码方案：Xilinx–SMPTE SD/HD/3G SDI解码；
图像缩放方案：自研纯Verilog图像缩放；
图像缩放实例：1920x1080缩放到640x480；
图像缓存方案：FDMA图像缓存+DDR3颗粒；图像2帧乒乓缓存；
PCIE详情：PCIE2.0版本，X4，5GT/s单lane线速率；
PCIE底层方案：Xilinx 7 Series Integrated Block for PCI Express；
PCIE上层方案：RIFFA；
实现功能：FPGA基于GTX+RIFFA架构实现SDI视频缩放转PCIE传输；
工程作用：此工程目的是让读者掌握FPGA基于GTX+RIFFA架构实现SDI视频缩放转PCIE传输的设计能力，以便能够移植和设计自己的项目；
工程Block Design和工程代码架构请参考第3章节的《工程源码架构》小节内容；
工程的资源消耗和功耗如下：
在这里插入图片描述

6、工程源码3详解–>Zynq7100，SDI视频1920x1080缩放到1280x720转PCIE输出版本

开发板FPGA型号：Xilinx–Zynq7100–xc7z100ffg900-2；
FPGA开发环境：Vivado2019.1；
QT开发环境：VS2015 + Qt 5.12.10；
输入：3G-SDI相机或HDMI转SDI盒子，分辨率1920x1080@60Hz；
输出：PCIE2.0，分辨率1280x720@60Hz；
SDI视频解串方案：Xilinx–GTX高速接口解串；
SDI视频解码方案：Xilinx–SMPTE SD/HD/3G SDI解码；
图像缩放方案：自研纯Verilog图像缩放；
图像缩放实例：1920x1080缩放到1280x720；
图像缓存方案：FDMA图像缓存+PL端DDR3颗粒；图像2帧乒乓缓存；
PCIE详情：PCIE2.0版本，X4，5GT/s单lane线速率；
PCIE底层方案：Xilinx 7 Series Integrated Block for PCI Express；
PCIE上层方案：RIFFA；
实现功能：FPGA基于GTX+RIFFA架构实现SDI视频缩放转PCIE传输；
工程作用：此工程目的是让读者掌握FPGA基于GTX+RIFFA架构实现SDI视频缩放转PCIE传输的设计能力，以便能够移植和设计自己的项目；
工程Block Design和工程代码架构请参考第3章节的《工程源码架构》小节内容；
工程的资源消耗和功耗如下：
在这里插入图片描述

7、工程源码4详解–>Zynq7100，SDI视频1920x1080缩放到640x480转PCIE输出版本

开发板FPGA型号：Xilinx–Zynq7100–xc7z100ffg900-2；
FPGA开发环境：Vivado2019.1；
QT开发环境：VS2015 + Qt 5.12.10；
输入：3G-SDI相机或HDMI转SDI盒子，分辨率1920x1080@60Hz；
输出：PCIE2.0，分辨率640x480@60Hz；
SDI视频解串方案：Xilinx–GTX高速接口解串；
SDI视频解码方案：Xilinx–SMPTE SD/HD/3G SDI解码；
图像缩放方案：自研纯Verilog图像缩放；
图像缩放实例：1920x1080缩放到640x480；
图像缓存方案：FDMA图像缓存+PL端DDR3颗粒；图像2帧乒乓缓存；
PCIE详情：PCIE2.0版本，X4，5GT/s单lane线速率；
PCIE底层方案：Xilinx 7 Series Integrated Block for PCI Express；
PCIE上层方案：RIFFA；
实现功能：FPGA基于GTX+RIFFA架构实现SDI视频缩放转PCIE传输；
工程作用：此工程目的是让读者掌握FPGA基于GTX+RIFFA架构实现SDI视频缩放转PCIE传输的设计能力，以便能够移植和设计自己的项目；
工程Block Design和工程代码架构请参考第3章节的《工程源码架构》小节内容；
工程的资源消耗和功耗如下：
在这里插入图片描述

8、工程移植说明

vivado版本不一致处理

1：如果你的vivado版本与本工程vivado版本一致，则直接打开工程；
2：如果你的vivado版本低于本工程vivado版本，则需要打开工程后，点击文件–>另存为；但此方法并不保险，最保险的方法是将你的vivado版本升级到本工程vivado的版本或者更高版本；
在这里插入图片描述
3：如果你的vivado版本高于本工程vivado版本，解决如下：

打开工程后会发现IP都被锁住了，如下：

此时需要升级IP，操作如下：