驱动——K7-DMA-PCIe

在做Windows系统PCIe驱动时,遇到的一些硬件驱动有关的问题总结一下:

一、K7

K7处理器:信号采集卡

K7系列CPU是AMD公司推出的高性价比CPU。

结构

        3个并行的X86指令解码器;9个为高频率优化的超标量微结构;动态推测时序,乱序执行; 2048个入口分支预测表和12个入口返回堆栈;3个超标量乱序整数管道,每个包含: 整数执行单元,地址产生单元;3个超标量乱序多媒体管道;64K指令一级CACHE和64K数据一级cache,每两路相关;2个通用64位数据cache装载/存储端口;高速64位后方2级CACHE控制器:支持512K到8MB二级cache,可编程接口速度;高速64位系统接口:200MHz系统总线

AMD的K7处理器并没有采用和Intel的GTL+相同的系统总线协议,它使用的是Digital公司的Alpha系统总线协议EV6。顺便说一下,Alpha处理器是一种用于服务器系统的纯64位处理器,其性能优于现在用于PC系统的处理器。K7使用的EV6系统总线有许多的优点,首先,它有许多比GTL+更为优秀的构造,例如它使用点对点布局。其次它可以支持200MHz的外频,我们见到的K7是工作在200MHz的外频下的,K7 CPU成为第一个从高带宽内存如Direct RDRAM和DDR SDRAM中受益的CPU。

AMD在1999年底推出内建L2 Cache的“Sharptooth利齿”(K6-3)处理器,,K7内置的tag RAM足以支持和Intel的PentiumⅡ处理器一样的512KB的L2 Cache,同时AMD还考虑生产像Intel的P6 CPU一样的外置的tag RAM,来支持不少于2MB—8MB的具有64位可编程控制的后置L2 Cache。虽然K7将不会把L2 Cache内建在处理器里,但是L2 Cache的速度将占CPU主频的1/3至全速,并且L2 Cache将使用SRAM或者DDR SRAM以保证其速度。K7拥有128KB的L1 Cache,其中,64KB将作为数据缓存,剩下的64KB将作为指令缓存

缓存

        拥有大量的L1 Cache对高速的处理器来说是必须的,没有足够的缓存是导致处理器性能提高的一大瓶颈。通过L2 Cache的大小和速度来决定CPU的用途,工作站或是服务器。使用加大缓存容量和DDR SDRAM作为L2 Cache的K7能够提供非常优秀的性能。

       K7有三条并行的x86指令译码器,用于将X86指令翻译成定长的微指令,每条微指令可以执行1到2个操作。K7有两种不同的译码流水线做这个工作,直接路径译码器快速地译码通用指令,而辅助路径译码器在微代码ROM中检索复杂的X86指令。K7有72个指令控制单元指令,控制单元分配微指令到乱序整数管道和乱序多媒体管道中去。乱序整数管道可以支持15个微指令,最大可同时进行30个操作,它的工作是分配3个独立的操作到3个并行的整数执行单元中去,每个执行单元都带有一个地址发生单元。地址发生单元能够通过优化L1和L2缓存数据的存取来保证最快的操作速度。

二、DMA

DMA:直接存储器访问。

DMA(Direct Memory Access,直接内存存取) 是所有现代电脑的重要特色,它允许不同速度的硬件装置来沟通,而不需要依赖于 CPU 的大量中断负载。否则,CPU 需要从来源把每一片段的资料复制到暂存器,然后把它们再次写回到新的地方。在这个时间中,CPU 对于其他的工作来说就无法使用

(1)原理

DMA 传输将数据从一个地址空间复制到另外一个地址空间。当CPU 初始化这个传输动作,传输动作本身是由 DMA 控制器来实行和完成。典型的例子就是移动一个外部内存的区块到芯片内部更快的内存区。像是这样的操作并没有让处理器工作拖延,反而可以被重新排程去处理其他的工作。DMA 传输对于高效能 嵌入式系统算法和网络是很重要的。

DMA

 

在实现DMA传输时,是由DMA控制器直接掌管总线,因此,存在着一个总线控制权转移问题。即DMA传输前,CPU要把总线控制权交给DMA控制器,而在结束DMA传输后,DMA控制器应立即把总线控制权再交回给CPU。一个完整的DMA传输过程必须经过DMA请求、DMA响应、DMA传输、DMA结束4个步骤。

(2)传输方式

DMA技术的出现,使得外围设备可以通过DMA控制器直接访问内存,与此同时,CPU可以继续执行程序。那么DMA控制器与CPU怎样分时使用内存呢?通常采用以下三种方法:(1)停止CPU访内存;(2)周期挪用;(3)DMA与CPU交替访问内存。

停止CPU访问内存

当外围设备要求传送一批数据时,由DMA控制器发一个停止信号给CPU,要求CPU放弃对地址总线、数据总线和有关控制总线的使用权。DMA控制器获得总线控制权以后,开始进行数据传送。在一批数据传送完毕后,DMA控制器通知CPU可以使用内存,并把总线控制权交还给CPU。图(a)是这种传送方式的时间图。很显然,在这种DMA传送过程中,CPU基本处于不工作状态或者说保持状态。

优点: 控制简单,它适用于数据传输率很高的设备进行成组传送。

缺点: 在DMA控制器访内阶段,内存的效能没有充分发挥,相当一部分内存工作周期是空闲的。这是因为,外围设备传送两个数据之间的间隔一般总是大于内存存储周期,即使高速I/O设备也是如此。例如,软盘读出一个8位二进制数大约需要32us,而半导体内存的存储周期小于0.5us,因此许多空闲的存储周期不能被CPU利用。

周期挪用

当I/O设备没有DMA请求时,CPU按程序要求访问内存;一旦I/O设备有DMA请求,则由I/O设备挪用一个或几个内存周期。

这种传送方式的时间图如下图(b):

I/O设备要求DMA传送时可能遇到两种情况:

(1)此时CPU不需要访内,如CPU正在执行乘法指令。由于乘法指令执行时间较长,此时I/O访内与CPU访内没有冲突,即I/O设备挪用一二个内存周期对CPU执行程序没有任何影响。

(2)I/O设备要求访内时CPU也要求访内,这就产生了访内冲突,在这种情况下I/O设备访内优先,因为I/O访内有时间要求,前一个I/O数据必须在下一个访问请求到来之前存取完毕。显然,在这种情况下I/O 设备挪用一二个内存周期,意味着CPU延缓了对指令的执行,或者更明确地说,在CPU执行访内指令的过程中插入DMA请求,挪用了一二个内存周期。 与停止CPU访内的DMA方法比较,周期挪用的方法既实现了I/O传送,又较好地发挥了内存和CPU的效率,是一种广泛采用的方法。但是I/O设备每一次周期挪用都有申请总线控制权、建立线控制权和归还总线控制权的过程,所以传送一个字对内存来说要占用一个周期,但对DMA控制器来说一般要2—5个内存周期(视逻辑线路的延迟而定)。因此,周期挪用的方法适用于I/O设备读写周期大于内存存储周期的情况。

DMA与CPU交替访问内存

如果CPU的工作周期比内存存取周期长很多,此时采用交替访内的方法可以使DMA传送和CPU同时发挥最高的效率。

这种传送方式的时间图如下:

此图是DMA与CPU交替访内的详细时间图.假设CPU工作周期为1.2us,内存存取周期小于0.6us,那么一个CPU周期可分为C1和C2两个分周期,其中C1专供DMA控制器访内,C2专供CPU访内。

这种方式不需要总线使用权的申请、建立和归还过程,总线使用权是通过C1和C2分时制的。CPU和DMA控制器各自有自己的访内地址寄存器、数据寄存器和读/写信号等控制寄存器。在C1周期中,如果DMA控制器有访内请求,可将地址、数据等信号送到总线上。在C2周期中,如CPU有访内请求,同样传送地址、数据等信号。事实上,对于总线,这是用C1,C2控制的一个多路转换器,这种总线控制权的转移几乎不需要什么时间,所以对DMA传送来讲效率是很高的。

这种传送方式又称为“透明的DMA”方式,其来由是这种DMA传送对CPU来说,如同透明的玻璃一般,没有任何感觉或影响。在透明的DMA方式下工作,CPU既不停止主程序的运行,也不进入等待状态,是一种高效率的工作方式。当然,相应的硬件逻辑也就更加复杂。

三、PCIe

PCI-Express(peripheral component interconnect express)是一种高速串行计算机扩展总线标准。

由于后者的固有限制,包括半双工操作,超量信号计数以及由于定时偏移引起的固有的较低带宽,因此,传统的并行总线选择了绑定串行总线架构。定时偏移来自在不同长度的导线,潜在不同的印刷电路板(PCB)层和可能不同的信号速度下行进的并行接口内的分离的电信号。尽管作为单个字同时传输,并行接口上的信号具有不同的行进持续时间,并在不同时间到达其目的地。当接口时钟周期短于信号到达之间的最大时间差时,就不可能恢复传输的字。由于并行总线上的定时偏移量可能达到几纳秒,因此所产生的带宽限制在几百兆赫的范围内。

串行接口不会出现定时偏移,因为每个通道中每个方向只有一个差分信号,并且由于时钟信息嵌入在串行信号本身中,所以没有外部时钟信号。因此,串行信号的典型带宽限制在几千兆赫范围内。 PCI Express是串行互连替代并行总线的一般趋势的一个例子;其他示例包括Serial ATA(SATA),USB,Serial Attached SCSI(SAS),FireWire(IEEE 1394)和RapidIO。在数字视频中,常用的例子有DVI,HDMI和DisplayPort。

多通道串行设计增加了灵活性,其能够为较慢的设备分配较少的通道。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
xilliix pcie dma 驱动 (基于 xilnx xdma ip核 4.0 的WDF驱动) --- # XDMA Windows Driver This project is Xilinx's sample Windows driver for 'DMA/Bridge Subsystem for PCI Express v4.0' (XDMA) IP. *Please note that this driver and associated software are supplied to give a basic generic reference implementation only. Customers may have specific use-cases and/or requirements for which this driver is not suitable.* ### Dependencies * Target machine running Windows 7 or Windows 10 * Development machine running Windows 7 (or later) * Visual Studio 2015 (or later) installed on development machine * Windows Driver Kit (WDK) version 1703 (or later) installed on development machine ## Directory Structure ``` / |__ build/ - Generated directory containing build output binaries. |__ exe/ - Contains sample client application source code. | |__ simple_dma/ - Sample code for AXI-MM configured XDMA IP. | |__ streaming_dma/ - Sample code for AXI-ST configured XDMA IP. | |__ user_events/ - Sample code for access to user event interrupts. | |__ xdma_info/ - Utility application which prints out the XDMA core ip | | configuration. | |__ xdma_rw/ - Utility for reading/writing to/from xdma device nodes such | | as control, user, bypass, h2c_0, c2h_0 etc. | |__ xdma_test/ - Basic test application which performs H2C/C2H transfers on | all present channels. |__ inc/ - Contains public API header file for XDMA driver. |__ libxdma/ - Static kernel library for XDMA IP. |__ sys/ - Reference driver source code which uses libxdma |__ README.md - This file. |__ XDMA.sln - Visual Studio Solution. ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值