计算任务

最新推荐文章于 2023-04-01 15:49:29 发布

liuxuejin

最新推荐文章于 2023-04-01 15:49:29 发布

阅读量796

点赞数

文章标签： linux descriptor 存储 table x86 user

本文链接：https://blog.csdn.net/liuxuejin/article/details/6305366

版权

将此页作为电子邮件发送

级别：初级

Vikram Shukla (mailto:vikshukl@in.ibm.com?subject=探索 Linux 内存模型), 软件工程师, IBM

2006 年 2 月 23 日

在这篇 Linux® 内存模型指南中，我们将学习如何构建和管理内存方面的基础知识。本指南介绍了内存控制单元、分页模型方面的内容，并详细介绍了物理内存区域方面的知识。

理解 Linux 使用的内存模型是从更大程度上掌握 Linux 设计和实现的第一步，因此本文将概述 Linux 内存模型和管理。

Linux 使用的是单一整体式结构 (Monolithic)，其中定义了一组原语或系统调用以实现操作系统的服务，例如在几个模块中以超级模式运行的进程管理、并发控制和内存管理服务。尽管出于兼容性考虑，Linux 依然将段控制单元模型 (segment control unit model) 保持一种符号表示，但实际上已经很少使用这种模型了。

与内存管理有关的主要问题有：

虚拟内存的管理，这是介于应用程序请求与物理内存之间的一个逻辑层。
物理内存的管理。
内核虚拟内存的管理/内核内存分配器，这是一个用来满足对内存的请求的组件。这种对内存的请求可能来自于内核，也可能来自于用户。
虚拟地址空间的管理。
交换和缓存。

本文探讨了以下问题，可以帮助您从操作系统中内存管理的角度来理解 Linux 的内幕：

段控制单元模型，通常专用于 Linux
分页模型，通常专用于 Linux
物理内存方面的知识

虽然本文并没有详细介绍 Linux 内核管理内存的方法，但是介绍了有关整个内存模型的知识以及系统的寻址方式，这些介绍可为您进一步的学习提供一个框架。本文重点介绍的是 x86 架构，但本文中的知识对于其他硬件实现同样适用。

x86 内存架构

在 x86 架构中，内存被划分成 3 种类型的地址：

逻辑地址 (logical address) 是存储位置的地址，它可能直接对应于一个物理位置，也可能不直接对应于一个物理位置。逻辑地址通常在请求控制器中的信息时使用。
线性地址 (linear address) （或称为 平面地址空间）是从 0 开始进行寻址的内存。之后的每个字节都可顺序使用下一数字来引用（0、1、2、3 等），直到内存末尾为止。这就是大部分非 Intel CPU 的寻址方式。Intel® 架构使用了分段的地址空间，其中内存被划分成 64KB 的段，有一个段寄存器总是指向当前正在寻址的段的基址。这种架构中的 32 位模式被视为平面地址空间，不过它也使用了段。
物理地址 (physical address) 是使用物理地址总线中的位表示的地址。物理地址可能与逻辑地址不同，内存管理单元可以将逻辑地址转换成物理地址。

CPU 使用两种单元将逻辑地址转换成物理地址。第一种称为分段单元 (segmented unit)，另外一种称为分页单元 (paging unit)。

图 1. 转换地址空间使用的两种单元

下面让我们来介绍一下段控制单元模型。

回页首

段控制单元模型概述

这种分段模型背后的基本思想是将内存分段管理。从本质上来说，每个段就是自己的地址空间。段由两个元素构成：

基址 (base address) 包含某个物理内存位置的地址
长度值 (length value) 指定该段的长度

分段地址还包括两个组件 —— 段选择器 (segment selector) 和段内偏移量 (offset into the segment)。段选择器指定了要使用的段（即基址和长度值），而段内偏移量组件则指定了实际内存位置相对于基址的偏移量。实际内存位置的物理地址就是这个基址值与偏移量之和。如果偏移量超过了段的长度，系统就会生成一个保护违例错误。

上述内容可小结如下：

分段单元可以表示成 -> 段: 偏移量 模型
也也可表示成 -> 段标识符: 偏移量

每个段都是一个 16 位的字段，称为段标识符 (segment identifier) 或段选择器 (segment selector)。x86 硬件包括几个可编程的寄存器，称为 段寄存器 (segment register)，段选择器保存于其中。这些寄存器为 cs（代码段）、ds（数据段）和 ss（堆栈段）。每个段标识符都代表一个使用 64 位（8 个字节）的段描述符 (segment descriptor) 表示的段。这些段描述符可以存储在一个 GDT（全局描述符表，global descriptor table）中，也可以存储在一个 LDT（本地描述符表，local descriptor table）中。

图 2. 段描述符和段寄存器的相互关系

每次将段选择器加载到段寄存器中时，对应的段描述符都会从内存加载到相匹配的不可编程 CPU 寄存器中。每个段描述符长 8 个字节，表示内存中的一个段。这些都存储到 LDT 或 GDT 中。段描述符条目中包含一个指针和一个 20 位的值（Limit 字段），前者指向由 Base 字段表示的相关段中的第一个字节，后者表示内存中段的大小。

其他某些字段还包含一些特殊属性，例如优先级和段的类型（cs 或 ds）。段的类型是由一个 4 位的 Type 字段表示的。

由于我们使用了不可编程寄存器，因此在将逻辑地址转换成线性地址时不引用 GDT 或 LDT。这样可以加快内存地址的转换速度。

段选择器包含以下内容：

一个 13 位的索引，用来标识 GDT 或 LDT 中包含的对应段描述符条目
TI (Table Indicator) 标志指定段描述符是在 GDT 中还是在 LDT 中，如果该值是 0，段描述符就在 GDT 中；如果该值是 1，段描述符就在 LDT 中。
RPL (request privilege level) 定义了在将对应的段选择器加载到段寄存器中时 CPU 的当前特权级别。

由于一个段描述符的大小是 8 个字节，因此它在 GDT 或 LDT 中的相对地址可以这样计算：段选择器的高 13 位乘以 8。例如，如果 GDT 存储在地址 0x00020000 处，而段选择器的 Index 域是 2，那么对应的段描述符的地址就等于 (2*8) + 0x00020000。GDT 中可以存储的段描述符的总数等于 (2^13 - 1)，即 8191。

图 3 展示了从逻辑地址获得线性地址。

图 3. 从逻辑地址获得线性地址

那么这在 Linux 环境下有什么不同呢？

回页首

Linux 中的段控制单元

Linux 对这个模型稍微进行了修改。我注意到 Linux 以一种受限的方法来使用这种分段模型（主要是出于兼容性方面的考虑）。

在 Linux 中，所有的段寄存器都指向相同的段地址范围 —— 换言之，每个段寄存器都使用相同的线性地址。这使 Linux 所用的段描述符数量受限，从而可将所有描述符都保存在 GDT 之中。这种模型有两个优点：

当所有的进程都使用相同的段寄存器值时（当它们共享相同的线性地址空间时），内存管理更为简单。
在大部分架构上都可以实现可移植性。某些 RISC 处理器也可通过这种受限的方式支持分段。

图 4 展示了对模型的修改。

图 4. 在 Linux 中，段寄存器指向相同的地址集

段描述符

Linux 使用以下段描述符：

内核代码段
内核数据段
用户代码段
用户数据段
TSS 段
默认 LDT 段

下面详细介绍这些段寄存器。

GDT 中的内核代码段 (kernel code segment) 描述符中的值如下：

Base = 0x00000000
Limit = 0xffffffff (2^32 -1) = 4GB
G（粒度标志）= 1，表示段的大小是以页为单位表示的
S = 1，表示普通代码或数据段
Type = 0xa，表示可以读取或执行的代码段
DPL 值 = 0，表示内核模式

与这个段相关的线性地址是 4 GB，S = 1 和 type = 0xa 表示代码段。选择器在 cs 寄存器中。Linux 中用来访问这个段选择器的宏是 _KERNEL_CS。

内核数据段 (kernel data segment) 描述符的值与内核代码段的值类似，惟一不同的就是 Type 字段值为 2。这表示此段为数据段，选择器存储在 ds 寄存器中。Linux 中用来访问这个段选择器的宏是 _KERNEL_DS。

用户代码段 (user code segment) 由处于用户模式中的所有进程共享。存储在 GDT 中的对应段描述符的值如下：

Base = 0x00000000
Limit = 0xffffffff
G = 1
S = 1
Type = 0xa，表示可以读取和执行的代码段
DPL = 3，表示用户模式

在 Linux 中，我们可以通过 _USER_CS 宏来访问此段选择器。

在 用户数据段 (user data segment) 描述符中，惟一不同的字段就是 Type，它被设置为 2，表示将此数据段定义为可读取和写入。Linux 中用来访问此段选择器的宏是 _USER_DS。

除了这些段描述符之外，GDT 还包含了另外两个用于每个创建的进程的段描述符 —— TSS 和 LDT 段。

每个 TSS 段 (TSS segment) 描述符都代表一个不同的进程。TSS 中保存了每个 CPU 的硬件上下文信息，它有助于有效地切换上下文。例如，在 U->K 模式的切换中，x86 CPU 就是从 TSS 中获取内核模式堆栈的地址。

每个进程都有自己在 GDT 中存储的对应进程的 TSS 描述符。这些描述符的值如下：

Base = &tss （对应进程描述符的 TSS 字段的地址；例如 &tss_struct）这是在 Linux 内核的 schedule.h 文件中定义的
Limit = 0xeb （TSS 段的大小是 236 字节）
Type = 9 或 11
DPL = 0。用户模式不能访问 TSS。G 标志被清除

所有进程共享默认 LDT 段。默认情况下，其中会包含一个空的段描述符。这个默认 LDT 段描述符存储在 GDT 中。Linux 所生成的 LDT 的大小是 24 个字节。默认有 3 个条目：

LDT[0] = 空
LDT[1] = 用户代码段
LDT[2] = 用户数据/堆栈段描述符

计算任务

要计算 GDT 中最多可以存储多少条目，必须先理解 NR_TASKS（这个变量决定了 Linux 可支持的并发进程数 —— 内核源代码中的默认值是 512，最多允许有 256 个到同一实例的并发连接）。

GDT 中可存储的条目总数可通过以下公式确定：

GDT 中的条目数 = 12 + 2 * NR_TASKS。
正如前所述，GDT 可以保存的条目数 = 2^13 -1 = 8192。

在这 8192 个段描述符中，Linux 要使用 6 个段描述符，另外还有 4 个描述符将用于 APM 特性（高级电源管理特性），在 GDT 中还有 4 个条目保留未用。因此，GDT 中的条目数等于 8192 - 14，也就是 8180。

任何情况下，GDT 中的条目数 8180，因此：

2 * NR_TASKS = 8180
NR_TASKS = 8180/2 = 4090

（为什么使用 2 * NR_TASKS？因为对于所创建的每个进程，都不仅要加载一个 TSS 描述符 —— 用来维护上下文切换的内容，另外还要加载一个 LDT 描述符。）

这种 x86 架构中进程数量的限制是 Linux 2.2 中的一个组件，但自 2.4 版的内核开始，这个问题已经不存在了，部分原因是使用了硬件上下文切换（这不可避免地要使用 TSS），并将其替换为进程切换。

接下来，让我们了解一下分页模型

liuxuejin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫