进行VIRTIO DMA相关工作,看过的同学都知道,VIRTIO DMA 中非常复杂的其实不是desc表什么的,而是index的更新,什么index,last_xx_index等等,搞得人云里雾里,而且网上大部分都是前后端分开描述,而且都是基于代码讲解,更让入门的同学不知所踪。今天我们就在这个文章里面,对virtio DMA的过程进行白话描述,不涉及具体代码,只讲清原理和设计原因为目的
虚拟化模拟的就是后端的虚拟硬件,我们在这里就认为他们是硬件,所以本位把后端成为HW;前端驱动在本文里面成为SW。
我们知道virtqueue, virtqueue由三部分组成,avail ring, used ring 和 desc 表。desc表最好理解,记录了一系列描述符,每个描述符指向一个真的内存。
不论是TX方向,还是RX方向,avail ring 是软件SW进行生产写入,硬件HW进行读取消费,SW作为生产者对avail ring进行填充,硬件HW对avail ring的内容进行消费,这个结论需要切记。
与之对应,不论是TX方向,还是RX方向,used ring 是硬件进行生产写入,软件SW进行读取消费,HW作为生产者对used ring进行填充,软件SW对used ring的内容进行消费,这个结论这也要切记!
下图就是整个virtqueue的结构,
avail ring 最前面是flag和index,按前面描述,avail->index 和 avail->ring[] 的内容都是SW进行填充和更新,SW每填充一个ring[],就会对avail->index进行++操作,并发送kick通知给硬件HW。硬件里面维护了一个数字称为 HW_LAST_AVAIL_IDX,每当收到KICK的时候,就会检查 HW_LAST_AVAIL_IDX 和 avail->index,如果有差距,就说明软件填充了新的报文,那么就对avail->ring[] 进行逐个处理,处理完成后,将 HW_LAST_AVAIL_IDX 更新为 avail->index。
used ring 最前面也是flag和index,但是used->index和used->ring[] 都是硬件HW进行更新和填充。另外,used->ring里面执行的是used element,其实和avail 不一样的只是多了一个len,只是因为如果是NET的话,不知道从外面收取了多长的报文,需要通过len告诉软件,这个used->ring[],用了len长,后面的内存就不要读取了。硬件HW消费完成后,更新used->index和used->ring[]指向的used element,之后发送中断给软件SW(或等待软件SW轮询,DPDK为例),软件内部有个数字称为SW_LAST_USED_IDX,软件收到中断后,用SW_LAST_USED_IDX 和 used->index进行比较,如果有差距,说明硬件填充了ring,然后软件SW按照梳理进行处理。软件处理完成后,更新SW_LAST_USED_IDX为used->index。
按照上面描述的原理,我们从RX和TX两个方向对DMA过程进行描述,再次贴出virtqueue结构
1. TX方向上,SW需要发送一个报文,SW从avail->ring[avail->index]取得一个元素,得到对应的desc,也得到对应的memory。SW将发送报文的内容复制到memory里面,更新avail->index(+1操作),然后发送KICK通知HW有发送。HW收到KICK后,比较HW_LAST_AVAIL_IDX和avail->index,发现差1,于是从avail->index[HW_LAST_AVAIL_IDX]开始,逐个取得ring元素进行DMA处理(也就是发送到硬件MAC),直到avail->index为止,处理完成后,HW更新HW_LAST_AVAIL_IDX为avail->index。处理完的报文,HW会从used->ring[used->index]取得元素,把处理完成的报文的desc号填充到used_elem->desc_id中,然后HW更新used->index(加一操作),之后HW发送中断给SW,告诉SW,used ring有变更。SW收到中断后,比较 SW_LAST_USED_IDX,发现同used->index有差距,那么就从used->ring[SW_LAST_USED_IDX]开始逐个处理,直到used->index,这里的处理也就是释放内存的操作,最后SW更新SW_LAST_USED_IDX为used->index。
2. RX方向上,SW会提前分配空白内存buffer到avail ring,分配完之后,马上就会发送KICK给HW,这也就是为什么启动pktgen之后,HW马上就能抓到KICK信号的原因,只是HW的处理不是把报文发送给MAC,而是等待报文到达。这个过程,软件也会持续增加avail->index直到最大。当报文到达后,HW会检查HW_LAST_AVAIL_IDX和avail->index,发现有差距,说明有空间可以接收报文。HW会从avail->ring[HW_LAST_AVAIL_IDX]获得元素,得到对应的内存,并且把报文内容复制到内存后,更新HW_LAST_AVAIL_IDX(加1操作,如果HW_LAST_AVAIL_IDX等于avail->index,说明追上了avail->index了,也就没有内存接收报文了)。硬件HW将收完报文的desc填充到used->ring[used->index]中,然后HW更新used->index(加1操作),并发送中断通知SW。SW收到中断后,检查SW_LAST_USED_IDX和used->index,发现有差距,说明硬件有新的报文到达,软件从used->ring[SW_LAST_USED_IDX] 开始取得元素对报文进行处理,并对used_elem->desc_id 执行的desc重新进行内存填充后,放入到avail->ring[avail->index]元素中,向HW发送KICK,这就是refill动作。HW处理直到used->index为止,处理完成后,SW将 SW_LAST_USED_IDX 更新为 used->index。接收报文动作完成
本文,我们只对最进本的报文收发原理进行了描述符,后面的文章中,我们将会对巨帧、merge buffer、event idx、性能等方面进行更深入的描述,感谢阅读