驱动——K7-DMA-PCIe

最新推荐文章于 2024-07-15 22:16:49 发布

ooMelloo

最新推荐文章于 2024-07-15 22:16:49 发布

阅读量1.2k

点赞数

分类专栏：驱动

本文链接：https://blog.csdn.net/Aidam_Bo/article/details/90296307

版权

驱动专栏收录该内容

1 篇文章 0 订阅

订阅专栏

在做Windows系统PCIe驱动时，遇到的一些硬件驱动有关的问题总结一下：

一、K7

K7处理器：信号采集卡

K7系列CPU是AMD公司推出的高性价比CPU。

结构

3个并行的X86指令解码器；9个为高频率优化的超标量微结构；动态推测时序，乱序执行； 2048个入口分支预测表和12个入口返回堆栈；3个超标量乱序整数管道，每个包含：整数执行单元，地址产生单元；3个超标量乱序多媒体管道；64K指令一级CACHE和64K数据一级cache，每两路相关；2个通用64位数据cache装载/存储端口；高速64位后方2级CACHE控制器：支持512K到8MB二级cache，可编程接口速度；高速64位系统接口：200MHz系统总线。

AMD的K7处理器并没有采用和Intel的GTL+相同的系统总线协议，它使用的是Digital公司的Alpha系统总线协议EV6。顺便说一下，Alpha处理器是一种用于服务器系统的纯64位处理器,其性能优于现在用于PC系统的处理器。K7使用的EV6系统总线有许多的优点，首先,它有许多比GTL+更为优秀的构造，例如它使用点对点布局。其次它可以支持200MHz的外频，我们见到的K7是工作在200MHz的外频下的，K7 CPU成为第一个从高带宽内存如Direct RDRAM和DDR SDRAM中受益的CPU。

AMD在1999年底推出内建L2 Cache的“Sharptooth利齿”（K6－3）处理器，，K7内置的tag RAM足以支持和Intel的PentiumⅡ处理器一样的512KB的L2 Cache，同时AMD还考虑生产像Intel的P6 CPU一样的外置的tag RAM，来支持不少于2MB—8MB的具有64位可编程控制的后置L2 Cache。虽然K7将不会把L2 Cache内建在处理器里，但是L2 Cache的速度将占CPU主频的1/3至全速，并且L2 Cache将使用SRAM或者DDR SRAM以保证其速度。K7拥有128KB的L1 Cache，其中，64KB将作为数据缓存，剩下的64KB将作为指令缓存。

缓存

拥有大量的L1 Cache对高速的处理器来说是必须的，没有足够的缓存是导致处理器性能提高的一大瓶颈。通过L2 Cache的大小和速度来决定CPU的用途，工作站或是服务器。使用加大缓存容量和DDR SDRAM作为L2 Cache的K7能够提供非常优秀的性能。

K7有三条并行的x86指令译码器，用于将X86指令翻译成定长的微指令，每条微指令可以执行1到2个操作。K7有两种不同的译码流水线做这个工作，直接路径译码器快速地译码通用指令，而辅助路径译码器在微代码ROM中检索复杂的X86指令。K7有72个指令控制单元指令，控制单元分配微指令到乱序整数管道和乱序多媒体管道中去。乱序整数管道可以支持15个微指令，最大可同时进行30个操作，它的工作是分配3个独立的操作到3个并行的整数执行单元中去，每个执行单元都带有一个地址发生单元。地址发生单元能够通过优化L1和L2缓存数据的存取来保证最快的操作速度。

二、DMA

DMA：直接存储器访问。

DMA(Direct Memory Access，直接内存存取) 是所有现代电脑的重要特色，它允许不同速度的硬件装置来沟通，而不需要依赖于 CPU 的大量中断负载。否则，CPU 需要从来源把每一片段的资料复制到暂存器，然后把它们再次写回到新的地方。在这个时间中，CPU 对于其他的工作来说就无法使用

（1）原理

DMA 传输将数据从一个地址空间复制到另外一个地址空间。当CPU 初始化这个传输动作，传输动作本身是由 DMA 控制器来实行和完成。典型的例子就是移动一个外部内存的区块到芯片内部更快的内存区。像是这样的操作并没有让处理器工作拖延，反而可以被重新排程去处理其他的工作。DMA 传输对于高效能嵌入式系统算法和网络是很重要的。

在实现DMA传输时，是由DMA控制器直接掌管总线，因此，存在着一个总线控制权转移问题。即DMA传输前，CPU要把总线控制权交给DMA控制器，而在结束DMA传输后，DMA控制器应立即把总线控制权再交回给CPU。一个完整的DMA传输过程必须经过DMA请求、DMA响应、DMA传输、DMA结束4个步骤。

（2）传输方式

DMA技术的出现，使得外围设备可以通过DMA控制器直接访问内存，与此同时，CPU可以继续执行程序。那么DMA控制器与CPU怎样分时使用内存呢?通常采用以下三种方法：(1)停止CPU访内存；(2)周期挪用；(3)DMA与CPU交替访问内存。

停止CPU访问内存

当外围设备要求传送一批数据时，由DMA控制器发一个停止信号给CPU，要求CPU放弃对地址总线、数据总线和有关控制总线的使用权。DMA控制器获得总线控制权以后，开始进行数据传送。在一批数据传送完毕后，DMA控制器通知CPU可以使用内存，并把总线控制权交还给CPU。图(a)是这种传送方式的时间图。很显然，在这种DMA传送过程中，CPU基本处于不工作状态或者说保持状态。

优点: 控制简单，它适用于数据传输率很高的设备进行成组传送。

缺点: 在DMA控制器访内阶段，内存的效能没有充分发挥，相当一部分内存工作周期是空闲的。这是因为，外围设备传送两个数据之间的间隔一般总是大于内存存储周期，即使高速I/O设备也是如此。例如，软盘读出一个8位二进制数大约需要32us，而半导体内存的存储周期小于0.5us，因此许多空闲的存储周期不能被CPU利用。

周期挪用

当I/O设备没有DMA请求时，CPU按程序要求访问内存；一旦I/O设备有DMA请求，则由I/O设备挪用一个或几个内存周期。

这种传送方式的时间图如下图(b)：

I/O设备要求DMA传送时可能遇到两种情况：

(1)此时CPU不需要访内，如CPU正在执行乘法指令。由于乘法指令执行时间较长，此时I/O访内与CPU访内没有冲突，即I/O设备挪用一二个内存周期对CPU执行程序没有任何影响。

(2)I/O设备要求访内时CPU也要求访内，这就产生了访内冲突，在这种情况下I/O设备访内优先，因为I/O访内有时间要求，前一个I/O数据必须在下一个访问请求到来之前存取完毕。显然，在这种情况下I/O 设备挪用一二个内存周期，意味着CPU延缓了对指令的执行，或者更明确地说，在CPU执行访内指令的过程中插入DMA请求，挪用了一二个内存周期。与停止CPU访内的DMA方法比较，周期挪用的方法既实现了I/O传送，又较好地发挥了内存和CPU的效率，是一种广泛采用的方法。但是I/O设备每一次周期挪用都有申请总线控制权、建立线控制权和归还总线控制权的过程，所以传送一个字对内存来说要占用一个周期，但对DMA控制器来说一般要2—5个内存周期(视逻辑线路的延迟而定)。因此，周期挪用的方法适用于I/O设备读写周期大于内存存储周期的情况。

DMA与CPU交替访问内存

如果CPU的工作周期比内存存取周期长很多，此时采用交替访内的方法可以使DMA传送和CPU同时发挥最高的效率。

这种传送方式的时间图如下：

此图是DMA与CPU交替访内的详细时间图．假设CPU工作周期为1.2us，内存存取周期小于0.6us，那么一个CPU周期可分为C1和C2两个分周期，其中C1专供DMA控制器访内，C2专供CPU访内。

这种方式不需要总线使用权的申请、建立和归还过程，总线使用权是通过C1和C2分时制的。CPU和DMA控制器各自有自己的访内地址寄存器、数据寄存器和读/写信号等控制寄存器。在C1周期中，如果DMA控制器有访内请求，可将地址、数据等信号送到总线上。在C2周期中，如CPU有访内请求，同样传送地址、数据等信号。事实上，对于总线，这是用C1，C2控制的一个多路转换器，这种总线控制权的转移几乎不需要什么时间，所以对DMA传送来讲效率是很高的。

这种传送方式又称为“透明的DMA”方式，其来由是这种DMA传送对CPU来说，如同透明的玻璃一般，没有任何感觉或影响。在透明的DMA方式下工作，CPU既不停止主程序的运行，也不进入等待状态，是一种高效率的工作方式。当然，相应的硬件逻辑也就更加复杂。

三、PCIe

PCI-Express(peripheral component interconnect express)是一种高速串行计算机扩展总线标准。

由于后者的固有限制，包括半双工操作，超量信号计数以及由于定时偏移引起的固有的较低带宽，因此，传统的并行总线选择了绑定串行总线架构。定时偏移来自在不同长度的导线，潜在不同的印刷电路板（PCB）层和可能不同的信号速度下行进的并行接口内的分离的电信号。尽管作为单个字同时传输，并行接口上的信号具有不同的行进持续时间，并在不同时间到达其目的地。当接口时钟周期短于信号到达之间的最大时间差时，就不可能恢复传输的字。由于并行总线上的定时偏移量可能达到几纳秒，因此所产生的带宽限制在几百兆赫的范围内。

串行接口不会出现定时偏移，因为每个通道中每个方向只有一个差分信号，并且由于时钟信息嵌入在串行信号本身中，所以没有外部时钟信号。因此，串行信号的典型带宽限制在几千兆赫范围内。 PCI Express是串行互连替代并行总线的一般趋势的一个例子;其他示例包括Serial ATA（SATA），USB，Serial Attached SCSI（SAS），FireWire（IEEE 1394）和RapidIO。在数字视频中，常用的例子有DVI，HDMI和DisplayPort。

多通道串行设计增加了灵活性，其能够为较慢的设备分配较少的通道。

ooMelloo

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
驱动——K7-DMA-PCIe

在做Windows系统PCIe驱动时，遇到的一些硬件驱动有关的问题总结一下：一、K7K7处理器：信号采集卡K7系列CPU是AMD公司推出的高性价比CPU。结构 3个并行的X86指令解码器；9个为高频率优化的超标量微结构；动态推测时序，乱序执行； 2048个入口分支预测表和12个入口返回堆栈；3个超标量乱序整数管道，每个包含：整数执行单元，地址产生单元；3个超标量...
复制链接

扫一扫

专栏目录