Linux Device Drivers（设备驱动程序）_转自老刘的blog-CSDN博客

本文围绕Linux内核设备驱动程序展开，介绍了其管理物理设备的方式，涵盖字符、块和网络三种硬件设备类型。还阐述了轮询和中断、DMA、内存等机制，以及SCSI子系统的初始化和网络设备的发现与初始化过程，帮助读者深入了解Linux设备驱动。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Chapter 8

Device Drivers（设备驱动程序）

操作系统的目标之一是向用户掩盖系统硬件设备的特殊性。例如，虚拟文件系统呈现给用户一个统一的文件系统视图，而和底层的物理设备无关。本章描述Linux内核是如何管理系统中的物理设备的。

CPU不是系统中唯一的智能设备，每一个物理设备都由它自己的硬件控制器。键盘、鼠标和串行口由SuperIO芯片控制，IDE磁盘由IDE控制器控制，SCSI磁盘由SCSI控制器控制，等等。每一个硬件控制器都由自己的控制和状态寄存器（CSR），而且不同的设备有不同的寄存器。一个Adaptec 2940 SCSI控制器的CSR和NCR 810 SCSI控制器的CSR完全不同。CSR用于启动和停止设备，初始化设备和诊断它的问题。管理这些硬件控制器的代码不是放在每一个应用程序里边，而是放在Linux内核。这些处理或者管理硬件控制器的软件叫做设备驱动程序。本质上，Linux内核的设备驱动程序是特权的、驻留在内存的、低级硬件控制例程的共享库。正是Linux的设备驱动程序处理它们所管理的设备的特性。

UNIX的一个基本特点是它抽象了对设备的处理。所有的硬件设备都象常规文件一样看待：它们可以使用和操作文件相同的、标准的系统调用来打开、关闭和读写。系统中的每一个设备都用一个设备特殊文件代表。例如系统中第一个IDE硬盘用/dev/had表示。对于块（磁盘）和字符设备，这些设备特殊文件用mknod命令创建，并使用主（major）和次（minor）设备编号来描述设备。网络设备也用设备特殊文件表达，但是它们由Linux在找到并初始化系统中的网络控制器的时候创建。同一个设备驱动程序控制的所有设备都有一个共同的major设备编号。次设备编号用于区分不同的设备以及它们的控制器。例如，主IDE磁盘的不同分区都有一个不同的次设备编号。所以，/dev/hda2，主IDE磁盘的第2个分区，其主设备号是3，而次设备号是2。Linux使用主设备号表和一些系统表（例如字符设备表chrdevs）把系统调用中传递的设备特殊文件（比如在一个块设备上安装一个文件系统）映射到这个设备的设备驱动程序中。

参见fs/devices.c

Linux支持三种类型的硬件设备：字符、块和网络。

l 字符设备是没有缓冲直接读写的设备，例如系统的串行端口/dev/cua0和/dev/cua1。

l 块设备是只能按照一个块（一般是512字节或者1024字节）的倍数进行读写的设备。块设备通过buffer cache访问，可以随机存取，就是说，任何块都可以读写，不必考虑它在设备的什么地方。块设备可以通过它们的设备特殊文件访问，但是更常见的是通过文件系统进行访问。只有一个块设备可以支持一个安装的文件系统。

l 网络设备是通过BSD socket接口访问的设备，网络子系统在网络章（第10章）描述。

Linux有许多不同的设备驱动程序（这也是Linux的力量之一），它们都具有一些一般的属性：

Kernel code

设备驱动程序和内核中的其它代码相似，是kenel的一部分，如果发生错误，可能严重损害系统。一个粗劣的驱动程序甚至可能摧毁系统，可能破坏文件系统，丢失数据。

Kenel interfaces

设备驱动程序必须向Linux内核或者它所在的子系统提供一个标准的接口。例如，终端驱动程序向Linux内核提供了一个文件I/O接口，而SCSI设备驱动程序向SCSI子系统提供了SCSI设备接口，接着，向内核提供了文件I/O和buffer cache的接口。

Kernel mechanisms and services

设备驱动程序使用标准的内核服务，例如内存分配、中断转发和等待队列来完成工作。

Loadable

大多数的Linux设备驱动程序，可以在需要的时候作为内核模块加载，在不再需要的时候卸载。这使得内核对于系统资源非常具有适应性和效率。

Configurable

Linux设备驱动程序可以建立在内核。至于哪些设备建立到内核，可以在内核编译的时候配置。

Dynamic

在系统启动，每一个设备启动程序初始化的时候，它会查找它管理的硬件设备。如果一个设备驱动程序所控制的设备不存在并没有关系。这时这个设备驱动程序只是多余的，占用很少的系统内存，而不会产生危害。

8.1 Poling and Interrupts（轮询和中断）

每一次给设备命令（例如“把读磁头移到软盘的第42扇区“）的时候，设备驱动程序都可以选择采用什么手段来判断命令是否已经执行结束。设备驱动程序可以轮询设备或者使用中断。

轮询设备通常意味着不断读取它的状态寄存器，直到设备的状态改变指示它已经完成了请求。因为设备驱动程序是内核的一部分，如果驱动程序一直在轮询，内核在设备完成请求之前不能运行其它任何东西，会是惨重的损失。所以轮询的设备驱动程序使用一个系统计时器，让内核在晚些时候调用设备驱动程序中的一个例程。这个定时器例程会检查命令的状态，Linux的软盘驱动程序就是这样工作的。使用计时器进行轮询是一种最好的近似，而更加有效的方法是使用中断。

中断驱动的设备驱动程序在它控制的硬件设备需要服务时，会发出一个硬件中断。例如：当在网络上接收到一个以太网报文时，以太网设备驱动程序会被设备中断。Linux内核要有能力把从硬件设备来的中断转发到正确的设备驱动程序。这通过设备驱动程序向内核登记它所使用的中断来实现。它登记中断处理程序例程的地址和它希望拥有的中断编号。你通过/proc/interrupts可以看到设备驱动使用了哪些中断和每一类型的中断使用了多少次：

0: 727432 timer

1: 20534 keyboard

2: 0 cascade

3: 79691 + serial

4: 28258 + serial

5: 1 sound blaster

11: 20868 + aic7xxx

13: 1 math error

14: 247 + ide0

15: 170 + ide1

对于中断资源的请求发生在驱动程序初始化时。系统中有些中断是固定的，这是IBM PC体系结构的遗留物。例如，软驱控制器总是用中断6。其它中断，例如PCI设备的中断，在启动的时候动态分配。这时设备驱动程序必须首先找出它所控制的设备的中断号，然后才能请求拥有这个中断的处理权。对于PCI中断，Linux支持标准的PCI BIOS回调（callback）来确定系统中设备的信息，包括它们的IRQ。

一个中断本身如何被转发到CPU，依赖于体系结构。但是在大多数的体系结构上，中断都用一种特殊的模式传递，在这种模式下，系统中其它的中断将被停止。设备驱动程序在它的中断处理例程中应该做尽可能少的工作，以便Linux内核可以结束中断，返回到它被中断以前的地方。收到中断后需要做大量工作的设备驱动程序可以使用内核的bottom half handler或者任务队列把例程排在后面，以便在以后调用。

8.2 Direct Memory Access （DMA）

当数据量比较少的时候，用中断驱动的设备驱动程序向设备传输数据或者从设备接收，会工作得相当好。例如，一个9600波特率的modem每一毫秒（1/1000秒）大约可以传输一个字符。如果中断延迟，就是从硬件设备发出中断到设备驱动程序中的中断处理程序被调用之间所花的时间比较少（比如2毫秒），那么数据传输对系统整体性能的影响就非常小。9600波特率的modem的数据传输只会占用0.002%的CPU处理时间。但是对于高速设备，比如硬盘控制器或者以太网设备，数据传输速率就相当高。一个SCSI设备每秒可以传输高达40M字节的信息。

直接内存存取，或者说DMA，就是发明来解决这个问题的。一个DMA控制器，在不需要处理器干预的情况下，允许在设备和系统内存之间传输数据。PC的ISA DMA控制器有8个DMA通道，设备驱动程序可使用其中的7个。每一个DMA通道都关联一个16位的地址寄存器和一个16位的计数寄存器（count register）。为了初始化一次数据传输，设备驱动程序需要设置DMA通道的地址和计数寄存器，加上数据传输的方向：读或写。然后，设备驱动程序就可以告诉设备：它可以在需要的时候启动DMA。当传输结束时，设备中断PC。这样，在CPU作其它事情的时候（不需要CPU的参与），可以发生传输。

使用DMA时，设备驱动程序要非常小心。首先，所有的DMA控制器都不了解虚拟内存，它只能访问系统中的物理内存。因此，需要进行DMA传输的内存必须是连续的物理内存块。这意味着你不能直接对一个进程的虚拟地址空间进行DMA访问。但是，你可以在执行DMA操作时把进程的物理页锁定到内存中，从而防止在做DMA操作时，物理页被交换出去。第二：DMA控制器无法访问全部的物理内存。DMA通道的地址寄存器表示DMA地址的前16位，跟着的8位来自于页寄存器（page register）。这意味着DMA请求限制在底部的16M内存中。

DMA通道是稀少的资源，只有7个，又不能在设备驱动程序之间共享。象中断一样，设备驱动程序必须有能力发现它可以使用哪一个DMA通道。象中断一样，一些设备有固定的DMA通道，比如软驱设备，总是用DMA通道2。有时，设备的DMA通道可以用跳线设置：一些以太网设备用这种技术。对一些更灵活的设备，你可以告诉它（通过它们的CSR）使用哪一个DMA通道，这时，设备驱动程序可以简单地选出一个可用的DMA通道。

Linux使用dma_chan数据结构向量表（每一个DMA通道一个）跟踪DMA通道的使用情况。dma_chan数据结构只有两个域：一个字符串指针，描述这个DMA通道的属主；一个标志，显示这个DMA通道是否已被分配。当你cat /proc/dma的时候，显示出的就是dma_chan向量表。

8.3 Memory（内存）

设备驱动程序必须小心使用内存。因为它们是Linux内核的一部分，所以它们不能使用虚拟内存。每一次当设备驱动程序运行时（可能是接收到了中断、调度了一个buttom half handler或处理程序任务队列），当前的进程都可能改变。设备驱动程序不能依赖于一个正在运行的特殊进程，哪怕驱动程序正在为当前进程工作。象内核中其它部分一样，设备驱动程序使用数据结构跟踪它所控制的设备。这些数据结构可以在设备驱动程序的代码部分静态分配，但是这会让内核不必要地增大从而造成浪费。多数设备驱动程序分配内核的、不分页的内存来存放它们的数据。

Linux内核提供了内核的内存分配和释放例程，设备驱动程序正是使用了这些例程。内核内存按块分配，块的大小为2的幂数。例如128或512字节，即使设备驱动程序请求的数量没有这么多。设备驱动程序请求的字节数，按照块的大小被规约（大于等于它的最小块的大小）。这使得内核的内存回收更容易，因为较小的空闲块可以组合成更大的块。

请求内核内存的时候，Linux还需要做更多的附加工作。如果空闲内存的总数太少，物理页需要废弃或者写到交换设备上。通常，Linux 会挂起请求者，把这个进程放到一个等待队列，直到有了足够的物理内存。不是所有的设备驱动程序（或者实际是Linux的内核代码）都希望发生这样的事情，可以要求内核内存分配例程在不能立刻分配内存时就失败。如果设备驱动程序希望为DMA访问分配内存，它也需要指出这块内存是可以进行DMA的。因为需要让Linux内核明白系统中哪些是连续、的可以进行DMA的内存，而不是让设备驱动程序决定。

8.4 Interfacing Device Drivers with the Kernel（设备驱动程序和内核接口）

Linux内核必须能够用标准的方式和设备驱动程序交互。每一类的设备驱动程序：字符、块和网络，都提供了通用的接口供内核在需要请求它们的服务的时候使用。这些通用的接口意味着内核可以完全相同地看待通常是非常不同的设备和它们的设备驱动程序。例如，SCSI和IDE磁盘的行为非常不同，但是Linux内核对它们使用相同的接口。

Linux非常地动态，每一次Linux内核启动，它都可能遇到不同的物理设备从而需要不同的设备驱动程序。Linux允许你在建立内核时通过配置脚本，将设备驱动程序包含在内核中。在系统启动时，这些设备驱动程序初始化，此时它们可能没有发现自己可以控制的任何硬件。其它驱动程序可以在需要的时候作为内核模块加载。为了处理设备驱动程序的这种动态特性，设备驱动程序要在它们初始化时向内核登记。Linux维护已经登记的设备驱动程序列表，作为和它们接口的一部分。这些列表包括了例程指针和支持这一类设备的接口信息。

8.4.1 Character Devices（字符设备）

字符设备，Linux中最简单的设备，可以象文件一样访问。应用程序使用标准系统调用打开、读、写和关闭字符设备，完全把它们作为普通文件一样对待。甚至正在被PPP守护进程使用，用于将一个Linux系统连接到网上的modem，也被看作一个普通文件。当字符设备初始化时，它的设备驱动程序向Linux内核登记，在chrdevs向量表增加一个device_struct数据结构条目。这个设备的主设备标识符（例如对于tty设备是4），用作这个向量表的索引。一个设备的主设备标识符是固定的。Chrdevs向量表中的每一个条目，即一个device_struct数据结构，包括两个元素：一个是指向登记的设备驱动程序名字的指针；另一个是指向一组文件操作的指针。这组文件操作本身位于这个设备的字符设备驱动程序中，每一个都处理一个特定的文件操作，比如打开、读、写和关闭。/proc/devices中字符设备的内容来自chrdevs向量表

参见include/linux/major.h

当代表一个字符设备（例如/dev/cua0）的字符特殊文件打开时，内核必须做一些事情，从而去调用正确的字符设备驱动程序的文件操作例程。和普通文件或目录一样，每一个设备特殊文件都用VFS I节点表达。这个字符特殊文件的VFS inode（实际上所有的设备特殊文件）包含有设备的major和minor标识符。这个VFS I节点由底层的文件系统（例如EXT2）创建，其信息是在查找这个设备特殊文件时，由实际的文件系统提供的。

参见fs/ext2/inode.c ext2_read_inode()

每一个VFS I节点都关联着一组文件操作，它们依赖于I节点所代表的文件系统对象的不同而不同。不管代表一个字符特殊文件的VFS I节点什么时候创建，它的文件操作都被设置成字符设备的缺省操作。实际上只有一种文件操作：open操作。当一个应用程序打开这个字符特殊文件时，通用的open文件操作使用设备的主设备标识符作为chrdevs向量表中的索引，取出这种特殊设备的文件操作块。它也建立描述这个字符特殊文件的file数据结构，让它的文件操作指针指向设备驱动程序中的相应操作。然后应用程序所有的文件系统操作都被映射到字符设备的文件操作。

参见fs/devices.c chrdev_open() def_chr_fops

8.4.2 Block Devices（块设备）

块设备也支持象文件一样被访问。为打开块特殊文件提供了一组正确的文件操作集，这种机制与字符设备的十分相似。Linux用blkdevs向量表维护已经登记的块设备文件。与chrdevs向量表一样，使用块设备的主设备号作为该向量表的索引。它的条目也是device_struct数据结构。和字符设备不同，块设备进行了分类。SCSI设备是其中的一类，而IDE设备是另一类。类向Linux内核登记自身，并向内核提供文件操作。属于一个块设备类的设备驱动程序，向这个类提供与类相关的接口。例如，SCSI设备驱动程序必须向SCSI子系统提供接口，SCSI子系统使用这些接口向内核提供有关这种设备的文件操作。

参见fs/devices.c

每一个块设备驱动程序都必须提供普通的文件操作接口，同时提供对buffer cache的接口。每一个块设备驱动程序必须填充它在blk_dev向量表中的blk_dev_struct数据结构。同样，这个向量表的索引还是设备的主设备号。这个blk_dev_struct数据结构包括一个请求例程地址和一个指针，该指针指向一个request数据结构列表，每一个request数据结构都表示一个来自buffer cache的、要求设备驱动程序读写一块数据的请求。

参见drivers/block/ll_rw_blk.c，include/linux/blkdev.h

每当buffer cache希望从一个登记的设备读一块数据，或希望向一个登记的设备写一块数据时，它就在它的blk_dev_struc中增加一个request数据结构。图8.2显示了每一个request都是一个读写一块数据的请求，而且每一个request都有一个指针指向一个或多个buffer_head数据结构。这个buffer_head数据结构被buffer cache锁定，可能会有一个进程在该阻塞（block）操作上等待这个缓冲区完成。每一个request结构都是从一个静态表：all_request表中分配的。如果这个request增加到一个空的request列表，驱动程序的request函数就被调用，开始最这个request队列的处理。否则，驱动程序只是简单地处理request队列中的每一个请求。

一旦设备驱动程序完成了一个请求，该请求的每一个buffer_head结构都必须从request结构中删除，并被标记为最新的，然后解锁。对于buffer_head的解锁会唤醒任何正在等待这个阻塞操作完成的进程。这样的例子包括文件解析的时候：EXT2文件系统必须从包括这个文件系统的块设备上，读取包括下一个EXT2目录条目的数据块，这个进程会在buff_head（将要包括下一个EXT2目录条目）上睡眠，直到设备驱动程序唤醒它。这个request数据结构会被标记为空闲，从而可以被另一个块请求使用。

8.5 Hard Disks（硬盘）

硬盘把数据存放在转动的磁碟上，提供了一个更永久地存储数据的方式。为了写入数据，微小的磁头把磁碟表面的微型颗粒磁化。通过磁头也可以探测指定的微粒是否被磁化，从而读出数据。

一个磁盘驱动器由一个或多个磁碟组成，每一个磁碟都用相当光滑的玻璃或者陶瓷制成，并覆盖上一层精细的金属氧化物。磁碟放在一个中心轴上面，并按照稳定的速度转动。转动速度根据型号不同从3000到1000RPM（转/每分钟）。与之相比，软盘的转动速度仅为360 RPM。磁盘的读/写磁头负责读写数据，每一个磁碟有一对，每一面一个。读/写磁头和磁碟表面并没有物理的接触，而是在一个很薄的空气垫（十万分之一英寸）上面漂浮。读写磁头通过一个驱动器在磁碟表面移动。所有的磁头都粘在一起，同时在磁碟表面移动。

每一个磁碟的表面都被分成多个狭窄的同心环，叫做磁道（track）。磁道0是最外面的磁道，编号最高的磁道是最接近中心轴的磁道。一个柱面（cylinder）是一组具有相同编号的磁道。所以磁盘上所有磁碟的第5磁道（每一面）就是磁盘的第5柱面。因为柱面数和磁道数相同，所以磁盘的尺寸常用柱面来描述。每一个磁道又进一步分为扇区（sector）。一个扇区是可以从硬盘读写的最小数据单元，也就是磁盘的块（block ）大小。通常的扇区大小是512字节。磁盘扇区的大小通常是在磁盘制造过程中，对其格式化时设定的。

磁盘通常用它的尺寸（geometry）描述：柱面（cylinders）数、磁头（heads）数和扇区（sectors）数。例如，启动的时候Linux这样描述我的IDE磁盘：

hdb: Conner Peripherals 540MB - CFS540A, 516MB w/64kB Cache, CHS=1050/16/63

这意味着它有1050个柱面（磁道），16个磁头（8个磁碟）和63个扇区/磁道。对于512字节的扇区或块大小，磁盘的容量是529200K字节。这和磁盘声明的516M的存储能力不符合，因为一些扇区用作存储磁盘的分区信息。一些磁盘可以自动找出坏的扇区，并对其进行重新索引。

硬盘可以再分为分区（partitions）。一个分区是为某一特定目的而分配的一大组扇区。对磁盘进行分区，使得一个磁盘可用于几个操作系统或多个目的。大多数单个磁盘的Linux系统都有3个分区：一个包含DOS文件系统，另一个是EXT2文件系统，第三个是交换分区。用分区表描述硬盘的分区，其中的每一个条目又用磁头、扇区和柱面号描述分区的起止位置。对于用fdisk格式化的DOS磁盘，可以有4个主磁盘分区。但不是分区表中的所有4个条目都必须用到。Fdisk支持三种类型的分区：主分区、扩展分区和逻辑分区。扩展分区不是真正的分区，它可以包括任意数目的逻辑分区。发明扩展分区和逻辑分区是为了突破4个主分区的限制。下面是一个包括2个主分区的磁盘的fdisk输出：

Disk /dev/sda: 64 heads, 32 sectors, 510 cylinders

Units = cylinders of 2048 * 512 bytes

Device Boot Begin Start End Blocks Id System

/dev/sda1 1 1 478 489456 83 Linux native

/dev/sda2 479 479 510 32768 82 Linux swap

Expert command (m for help): p

Disk /dev/sda: 64 heads, 32 sectors, 510 cylinders

Nr AF Hd Sec Cyl Hd Sec Cyl Start Size ID

1 00 1 1 0 63 32 477 32 978912 83

2 00 0 1 478 63 32 509 978944 65536 82

3 00 0 0 0 0 0 0 0 0 00

4 00 0 0 0 0 0 0 0 0 00

它显示了第一个分区开始于柱面或磁道0，磁头1和扇区1，直到柱面477，扇区32和磁头63。因为一个磁道有32个扇区和64个读写磁头，这个分区的柱面都是完全包括的。Fdisk缺省把分区对齐在柱面的边界。它从最外面的柱面（0）开始，向内（朝向中心轴方向）扩展478个柱面。第2个分区（交换分区）开始于下一个柱面（第478个柱面）并扩展到磁盘最里面的柱面。

在初始化的时候，Linux映射系统中硬盘的拓扑结构。它找出系统中有多少个硬盘以及硬盘的类型。Linux还找出每一个磁盘是如何分区的。这些都由gendisk_head指针指向的一组gendisk数据结构列表表达。对于每一个磁盘子系统，例如IDE，在它初始化时，生成gendisk数据结构来表示它找到的磁盘。这个过程和磁盘子系统登记它的文件操作、在blk_dev向量表中增加它的blk_dev_struct数据结构条目发生在同一时间。每一个gendisk数据结构都有一个唯一的主设备号（和块特殊设备的主设备号相同）。例如，SCSI磁盘子系统会创建一个独立的gendisk条目（“sd”），其主设备号是8（所有SCSI磁盘设备的主设备号都是8）。图8.3显示了两个gendisk条目，第一个是SCSI磁盘子系统，第二个是IDE磁盘控制器。这里IDE磁盘控制器是ide0，即主IDE控制器。

虽然磁盘子系统在初始化的时候会建立相应的gendisk条目，但Linux只是在进行分区检查时才用到它们。实际上，每一个磁盘子系统都维护自己的数据结构，允许自己把设备特殊文件的主、次设备号映射到物理磁盘的分区上。不管什么时候读写块设备，不管是通过buffer cache或者是文件操作，内核都根据它在块设备特殊文件（例如/dev/sda2）中找到的主设备号把操作定向到合适的设备上。是每一个设备驱动程序或子系统把次设备号映射到真正的物理设备上。

8.5.1 IDE Disks（IDE磁盘）

今天Linux系统中最常用的磁盘是IDE磁盘（Integrated Disk Electronic）。IDE和SCSI一样是一个磁盘接口而不是一个I/O总线。每一个IDE控制器可以支持最多2个磁盘，一个是主（master），另一个是从（slave）。Master和slave通常用磁盘上的跳线设置。系统中的第一个IDE控制器叫做主IDE控制器，下一个叫从属控制器等等。IDE可以进行3.3M/秒的数据传输（从/到磁盘），IDE磁盘的最大尺寸是538M字节。扩展IDE或EIDE把最大磁盘尺寸增加到8.6G字节，数据传输速率提高到16.6M/秒。IDE和EIDE磁盘比SCSI磁盘便宜，大多数现代PC在主板上都有一个或更多的IDE控制器。

Linux按照它找到控制器的顺序命名IDE磁盘。主控制器上的master磁盘是/dev/hda，slave磁盘是/dev/hdb。/dev/hdc是次IDE控制器上的master磁盘。IDE子系统向Linux登记IDE控制器而不是磁盘。主IDE控制器的主标识符是3，次IDE控制器的主标识符是22。这意味着如果一个系统有两个IDE控制器，那么在blk_dev和blkdevs向量表中的第3和第22项会有IDE子系统的条目。IDE磁盘的块特殊文件反映了这种编号：磁盘/dev/hda和/dev/hdb，都连接在主IDE控制器上，其主设备号都是3。对这些由块特殊文件代表的IDE子系统（如/dev/hda）进行的所有文件或buffer cache操作，都被定向到相应的IDE子系统，而该IDE子系统由内核使用主设备标识符作为索引，在blk_dev和blkdevs向量表中找到。当执行一个请求的时候，IDE子系统负责判断这个请求是针对哪一个IDE磁盘的。为此，IDE子系统使用设备特殊文件中的次设备号，这些信息允许它把请求定向到正确磁盘的正确分区。/dev/hdb，主IDE控制器上的slave IDE磁盘的设备标识符是（3，64）。该盘上的第一个分区（/dev/hdb1）的设备标识符是（3，65）。

8.5.2 Initializing the IDE Subsystem（初始化IDE子系统）

IBM PC的大部分历史中都有IDE磁盘。这期间，这些设备的接口发生了变化。这让IDE子系统的初始化过程比它第一次出现的时候更加复杂。

Linux可以支持的最大IDE控制器数目是4。每一个控制器都用ide_hwifs向量表中的一个ide_hwif_t数据结构表示。每一个ide_hwif_t数据结构又包含两个ide_drive_t数据结构，分别表示可能支持的master和slave IDE驱动器。在IDE子系统初始化期间，Linux首先查看在系统的CMOS内存中是否记录有磁盘的信息。这种用电池做后备的内存在PC关机时不会丢失它的内容。这个CMOS内存实际上在系统的实时时钟设备里面，不管你的PC开或者关，它都在运行。CMOS内存的位置由系统的BIOS设置，同时告诉Linux系统中找到了什么IDE控制器和驱动器。Linux从BIOS中获取已找到的磁盘的尺寸（geometry），并用这些信息设置这个驱动器的ide_hwif_t数据结构。大多数现代PC使用PCI芯片组，例如Intel的82430 VX芯片组，其中包括了一个PCI EIDE控制器。IDE子系统使用PCI BIOS回调（callback）定位系统中的PCI （E）IDE控制器。然后调用这些芯片组的PCI相关的询问例程。

一旦发现一个IDE接口或者控制器，就设置它的ide_hwif_t数据结构来反映这个控制器和与之相连的磁盘。操作过程中，IDE驱动程序向I/O内存空间的IDE命令寄存器写命令。主IDE控制器的控制和状态寄存器的缺省I/O地址是0x1F0-0x1F7。这些地址是早期的IBM PC约定下来的。IDE驱动程序向Linux的buffer cache和VFS登记每一个控制器，并分别把它加到blk_dev和blkdevs向量表中。IDE驱动程序也请求控制适当的中断。同样，这些中断也有约定，主IDE控制器是14，次IDE控制器是15。但是，象所有的IDE细节一样，这些都可以用内核的命令行选项改变。IDE驱动程序在启动的时候也为每一个找到的IDE控制器在gendisk列表中增加一个条目。这个列表稍后用于查看启动时找到的所有硬盘的分区表。分区检查代码明白：每一个IDE控制器可以控制两个IDE磁盘。

8.5.3 SCSI Disks（SCSI磁盘）

SCSI（Small Computer System Interface小型计算机系统接口）总线是一种有效的点对点的数据总线，每个总线支持多达8个设备，每个主机可以有一或者多个。每一个设备都必须有一个唯一的标识符（通常用磁盘上的跳线设置）。数据可以在总线上的任意两个设备之间同步或者异步传输，可以用32位宽的数据传输，速度可能高达40M/秒。SCSI总线可以在设备之间传输数据和状态信息，在发起者（initiator）和目标（target）之间的一个单独的事务可能会涉及多达8个不同的阶段。你可以通过SCSI总线上的5种信号判断出当前的阶段。这8个阶段是：

BUS FREE

没有设备控制该总线，当前没有任何事务发生。

ARBITRATION （仲裁）

一个SCSI设备试图得到该SCSI总线的控制权，它在地址管脚上声明（assert）它的SCSI标识符。最高编号的SCSI标识符成功。

SELECTION

一个设备通过仲裁成功地得到了SCSI总线的控制权，现在它必须向它要发送命令的SCSI目标发送信号。它在地址管脚上声明目标的SCSI标识符。

RESELECTION

SCSI设备在处理请求的过程中可能断线，目标会重新选择发起者。并非所有的SCSI设备都支持这一阶段。

COMMAND

6、10或者12字节的命令可以从发起者发送到目标。

DATA IN，DATA OUT

在这一阶段，数据在发起者和目标之间传输。

STATUS

在完成了所有的命令后，进入这一阶段。允许目标向发起者发送一个状态字节，表示成功或失败。

MESSAGE IN，MESSAGE OUT

在发起者和目标之间传递的附加信息。

Linux SCSI子系统由两个基本元素组成，每一个都用数据结构表示：

Host

一个SCSI host是一个物理的硬件，即一个SCSI控制器。NCR810 PCI SCSI控制器是一个SCSI host的例子。如果一个Linux系统有多于一个同类型的SCSI控制器，每一个实例都分别用一个SCSI host表示。这意味着一个SCSI设备驱动程序可能控制它的控制器的多于一个实例。SCSI host通常总是SCSI命令的发起者（initiator）。

Device

最常见的SCSI设备通常是SCSI磁盘，但是SCSI标准支持多种类型：磁带、CD-ROM和通用（generic）的SCSI设备。SCSI设备通常都是SCSI命令的目标（targets）。这些设备必须区别对待。例如对可移动介质（如CD-ROM或磁带），Linux需要探测介质是否已被取出。不同的磁盘类型有不同的主设备编号，允许Linux把块设备请求定向到合适的SCSI类型。

Initializing the SCSI Subsystem（初始化SCSI子系统）

初始化SCSI子系统是相当复杂的，因为要反映出SCSI总线和设备的动态实质。Linux在启动的时候初始化SCSI子系统：它查找系统中的SCSI控制器（SCSI host）；探测每一条SCSI总线，并查找其上的所有设备；初始化这些设备，使得Linux内核的其余部分可以通过普通文件和buffer cache块设备操作访问它们。这个初始化过程有四个阶段：

首先，Linux找出哪一个SCSI host适配器或控制器有可以控制的硬件，这些SCSI host适配器是在内核建立的时候建到内核中的。每一个内建的SCSI host在buildin_scsi_hosts向量表中都有一个Scsi_Host_Template数据结构条目。这个Scsi_Host_Template数据结构包括有指向例程的指针，这些例程可以执行和SCSI host相关的动作，例如探测这个SCSI host上粘附了什么SCSI设备。这些例程在SCSI子系统配置自己时被调用，是支持这种host类型的SCSI设备的驱动程序的一部分。每一个查找到的SCSI控制器（有真实的SCSI设备粘附）的Scsi_Host_Template数据结构都被加到scsi_hosts列表中，该列表表示有效的SCSI host。探测到的host类型的每一个实例都用scsi_hostlist列表中的一个Scsi_Host数据结构表示。例如，一个系统中有两个NCR810 PCI SCSI控制器，在这个列表中会有两个Scsi_Host条目，每一个控制器一个。每一个Scsi_Host，通过hostt域，指向一个Scsi_Host_Template，表示它的设备驱动程序。

现在每一个SCSI host都找到了，SCSI子系统必须找到每一个host总线上连接的所有SCSI设备。SCSI设备编号从0到7，每一个设备编号（或SCSI标识符）在它所粘附的SCSI总线上都是唯一的。SCSI标识符通常用设备上的跳线设置。SCSI初始化代码通过向每一个设备发送TEST_UNIT_READY命令，来查找连接到一条SCSI总线上的所有SCSI设备。当一个设备回应，再向它发送一个ENQUIRY命令来读出它的标识符。同时Linux还可从中获得Vendor的名称、设备的型号和修订号。SCSI命令用一个Scsi_Cmnd数据结构表示，这些SCSI命令通过调用这个SCSI host的Scsi_Host_Template数据结构中的设备驱动程序例程，传递给设备驱动程序。找到的每一个SCSI设备都用一个Scsi_Device数据结构表示，它们都指向它的父Scsi_Host。所有的Scsi_Device数据结构都加到scsi_devices列表中。图8.4显示了主要的数据结构和它们之间的关系。

有四种SCSI设备类型：磁盘、磁带、CD和通用（generic）。每一种SCSI类型，都用不同的主块设备类型分别向内核登记。当然，只有找到一个或多个给定的SCSI设备类型时，它们才向内核登记自己。每一个SCSI类型，例如SCSI磁盘，维护它自己的设备表。它用这些表把内核的块操作（文件或buffer cache）定向到正确的设备驱动程序或SCSI host。每一个SCSI类型都用一个Scsi_Type_Template数据结构表示。其中包括这种类型的SCSI设备的信息和执行多种任务的例程地址。SCSI子系统使用这些模板调用每一种SCSI设备类型的SCSI处理例程。换句话说，如果SCSI子系统希望粘附一个SCSI磁盘设备，它会调用SCSI 磁盘类型的例程。如果探测到某类型的一个或多个SCSI设备，它的Scsi_Type_Templates数据结构就被加到了scsi_devicelist列表中。

SCSI子系统初始化的最后阶段，是调用每一个登记的Scsi_Device_Template的finish函数。对于SCSI磁盘类型，带函数让所有的SCSI磁盘转动起来并记录它们的磁盘尺寸。它也把表示所有SCSI磁盘的gendisk数据结构增加到磁盘的链接列表中，如图8.3所示。

注：

1、Scsi_Host_Template数据结构描述的是类，每一个类表示一种Scsi Host，其中定义了该类host的相关信息和操作例程；

2、Scsi_Host数据结构描述的是Scsi_Host_Template的实例（对象），表示一个具体的Scsi Host；

3、Scsi_Type_Templates数据结构描述的是类，表示一类scsi device，其中含有这类设备的信息和处理例程；

4、Scsi_Device数据结构描述的是Scsi_Type_Templates的实例（对象），表示这种类型的一个具体的设备。

Delivering Block Device Requests（传递块设备请求）

一旦Linux初始化了SCSI子系统，就可以使用SCSI设备了。每一个有效的SCSI设备类型都在内核中登记自己，所以Linux可以把块设备请求定向到它那里。这些请求可能是通过blk_dev的buffer cache请求或者是通过blkdevs的文件操作。拿一个有一或多个EXT2文件系统分区的SCSI磁盘驱动器为例，当它的EXT2分区安装上时，内核的缓冲区请求是如何定向到正确的SCSI磁盘的呢？

对SCSI磁盘一个分区的读写一个数据块的请求，会导致创建一个新的request数据结构，该数据结构被加入到这个SCSI磁盘的blk_dev向量表的current_request列表中。如果这个request列表正在被处理，那么buffer cache不需要做任何事情。否则它必须让SCSI磁盘子系统处理它的请求队列。系统中的每一个SCSI磁盘都用一个Scsi_Disk数据结构表示。这些数据结构保存在rscsi_disks向量表中，用SCSI磁盘分区的次设备号的一部分作为索引。例如，/dev/sdb1的主设备号是8，次设备号是17，它的索引是1。每一个Scsi_Disk数据结构都包括一个指向表示这个设备的Scsi_Device数据结构的指针。Scsi_Device又指向一个“拥有它”的Scsi_Host数据结构。来自Buffer cache的的request数据结构被转换成为Scsi_Cmd数据结构，它描述需要发送到SCSI设备的SCSI命令，并在表示这个设备的Scsi_Host数据结构中排队。一旦适当的数据块读/写之后，这些命令会由各自的SCSI设备驱动程序处理。

8.6 Network Devices（网络设备）

从Linux网络子系统关心的角度来看，一个网络设备是一个发送和接收数据包的实体，通常是一个物理的设备，例如一个以太网卡。但是一些网络设备是纯软件的，例如loopback设备，用于向自己发送数据。每一个网络设备用一个device数据结构表示。在内核启动、网络初始化时，网络设备驱动程序向Linux登记它所控制的设备。device数据结构中包括这个设备的信息和一组函数的地址，Linux支持的大量的网络协议通过这组函数使用该设备提供的服务。这些函数的大多数都与使用这个网络设备传输数据有关。设备使用标准的网络支持机制，向适当的协议层（上层）传输它接收到的数据。传输和接收的所有的网络数据（包packets）都用sk_buff数据结构表示，这是一个灵活的数据结构，能很容易地增加和删除网络协议头。网络协议层如何使用网络设备，它们如何使用sk_buff数据结构来回传递数据，将在网络章（第10章）中详细描述。本章集中在device数据结构以及网络设备如何被发现和初始化上。

参见include/linux/netdevice.h

device数据结构包括网络设备的信息：

Name

不象块和字符设备（它们的设备特殊文件用mknod命令创建），网络设备特殊文件在系统的网络设备被发现和初始化时自然出现。它们的名字是标准的，每一个名字都表示了它的设备类型。同种类型的多个设备从0向上依次编号。因此以太网设备编号为/dev/eth0、/dev/eth1、/dev/eth2等等。一些常见的网络设备是：

/dev/ethN 以太网设备

/dev/slN SLIP设备

/dev/pppN PPP设备

/dev/lo loopback 设备

Bus Information

这是设备驱动程序控制设备所需要的信息。Irq是设备使用的中断。Base address是设备的控制和状态寄存器在I/O内存中的地址。DMA通道是这个网络设备使用的DMA通道号。所有这些信息都在系统启动、设备初始化时被设置。

Interface Flags

这些标志描述了该网络设备的特性和能力。

IFF_UP 接口 is up ，正在运行；

IFF_BROADCAST 设备的广播地址有效；

IFF_DEBUG 设备的debug选项打开；

IFF_LOOPBACK 这是一个loopback设备；

IFF_POINTTOPOINT 这是一个点到点的连接（SLIP and PPP）；

IFF_NOTRAILERS No network trailers；

IFF_RUNNING 资源已分配；

IFF_NOARP 不支持ARP协议；

IF_PROMISC 设备在混合（promiscuous）接收模式，它会接收所有的包，不管它们的地址是谁；

IFF_ALLMULTI 接收所有的IP Multicast帧；

IFF_MULTICAST 可以接收IP multicast帧。

Protocal Information

每一个设备都描述它可以如何被网络协议层使用：

Mtu

这个网络能够传输的最大包的尺寸（不包括需要增加的链路层头）。这个最大值被协议层（例如IP）使用，来选择一个合适的发送包的大小。

Family

family指出了设备可以支持的协议族。所有Linux网络设备都支持的family是AF_INET，即Internet地址family。

Type

硬件接口类型，描述了这个网络设备连接的介质。Linux网络设备支持多种介质类型。包括：Ethernet、X.25、Token Ring、Slip、PPP和Apple Localtalk。

Addresses

device 数据结构保存了一些和这个网络设备相关的地址，包括IP地址。

Packet Queue

这是一个sk_buff包的队列，它们正等待被网络设备进行传输。

Support Functions

每一个设备都提供了一组标准的例程，让协议层调用，作为这个设备的链路层接口的一部分。这组例程包括设置例程、帧传输例程、增加标准帧头和收集统计信息的例程等。这些统计信息可以用ifcnfig看到。

8.6.1 Initializing Network Devices（初始化网络设备）

网络设备驱动程序，象其它Linux设备驱动程序一样，可以建立到Linux内核中。每一个可能的网络设备都用一个device数据结构表示，该数据结构被放在由指针dev_base指向的网络设备列表中。如果需要设备相关的操作，网络层会调用网络设备服务例程（地址放在device数据结构中）中的一个。但是，初始的时候，每一个device数据结构中只放了初始化或者探测例程的地址。

网络驱动程序必须解决两个问题。首先，不是所有建立在Linux内核中的网络设备驱动程序都会有控制的设备；其次，系统中的以太网设备总是叫做/dev/eth0、/dev/eth1等等，而不管底层的设备驱动程序是什么。“丢失“网络设备的问题（第一个问题）容易解决。在调用每一个网络设备的初始化例程的时候，它返回一个状态，显示它是否定位到了它驱动的控制器的一个实例。如果驱动程序没有找到任何设备，它在由dev_base指向的device列表中的条目就会被删除。如果驱动程序可以找到一个设备，它就用这个设备的信息和网络设备驱动程序中的支持函数的地址填充该device数据结构的其余部分。

第二个问题，就是动态地分配以太网设备到标准的/dev/ethN设备特殊文件上的问题，用更优雅的方式解决。Device列表中有8个标准的条目：eth0、eth1到eth7。所有条目的初始化例程都一样，它顺序尝试建立在内核的每一个以太网设备驱动程序，直到找到一个设备。当驱动程序找到它的以太网设备时，它就填充它现在拥有的ethN的device数据结构。正是在这时，网络驱动程序要初始化它控制的物理硬件，并找出它使用的IRQ、DMA等等。驱动程序可能找到它控制的网络设备的几个实例，在这种情况下，它就占用几个/dev/ethN的device数据结构。一旦所有的8个标准的/dev/ethN都分配了，就不会再探测更多的以太网设备了。