嵌入式Linux内存管理

Frey_Liu

已于 2023-03-05 14:43:41 修改

阅读量1.1k

点赞数 1

分类专栏： linux开发文章标签：嵌入式内存管理 MMU mmu C程序

于 2021-12-19 18:33:03 首次发布

原文链接：https://mp.weixin.qq.com/s/POY_31IqAsgZ8PaCofxrqw

版权

linux开发专栏收录该内容

29 篇文章 5 订阅

订阅专栏

嵌入式Linux内存管理

被欺骗的C进程

每一个C语言的程序被执行起来的时候系统为了更方便开发人员操作，会给每一个进程分配一个虚拟的内存空间，它实际上是从处理内存映射出来的。虚拟内存的起始地址结束地址都是固定的，因此虚拟内存的布局都是一样。比如有三个进程 P1 P2 P3 ,他们虽然得到的物理内存是完全不一样，但是从进程的角度来看他们三个得到的内存确实一模一样的。
在这里插入图片描述
假设你正在使用的计算机实际物理内存只有 1GB 大小，而当前系统运行了三个进程，Linux 会将 PM 中的某些内存映射为三个大小均为 4GB 的虚拟内存 ，让每个进程都以为自己独自拥有了完整的内存空间 ，这样极大地方便了应用层程序的数据和代码的组织。

虚拟内存布局

虚拟内存布局分为内核空间、栈、堆、数据段、代码段和一个不允许访问的空间（相当于一堵墙）。
在这里插入图片描述
一个用户进程可以访问的内存区域介于 0x0804 8000 到0xc0000000 之间，这个“广袤”的区域又被分成了几个部分，分别用来存放进程的代码和数据。

下面让我们更进一步地研究虚拟内存中每一个空间所存放的是什么类型的数据。

栈内存

栈内存是用于存放环境变量、命令行参数和局部变量的。栈内存空间十分有限，默认情况下栈的大小为 8M ，在嵌入式开发的时候我们应该尽可能减少使用栈空间。栈空间的增长，从上（高地址）往下（低地址）每当有一个函数被调用的时候，栈就会从上往下分配一个段，这一段空间就是一个栈帧，该内存空间用来存放该函数的局部变量。
在这里插入图片描述
当一个函数退出（调用结束）的时候，栈空间会从下往上释放一个栈帧，将所有的内存归还给系统。

注意：

栈空间中的内存存放的数据值是未知的，因此每一个局部变量在使用之前最好做好初始化。
栈内存的空间我们无法手动实现申请与释放，都是由系统自动完成，我们无法干预。

堆空间

堆空间是相对自由的空间，这是一个非常重要的区域，因为在此区域定义的内存的生命周期我们是可以控制的：从 malloc( )/calloc( )/realloc( )开始，到 free( )结束，其分配和释放完全由我们开发者自定义，这就给了我们最大的自由和灵活性，让程序在运行的过程当中，以最大的效益使用内存。
在这里插入图片描述
注意：

相对于栈空间来说，堆的内存空间相对大很多
堆空间的增长方式，从下（低地址）往上（高地址）
堆空间中的内存都属于匿名空间，因此需要借助指针来访问
y由开发者自行申请和释放的，如果没有释放那么这个空间将一直存在，直到程序结束。

数据段

数据段中存放着全局变量、静态变量、和常量这些数据，生命周期与程序一致。程序不止，数据不断（段）。
在这里插入图片描述

代码段

代码段中又分成了两个空间：

.text段：存放用户的代码（mian func …）
init段：当程序运行之初的一些初始化的工作（由编译器根据系统来对应添加的）

内存管理是嵌入式学习的重点知识，内存管理学得好，对C语言的理解又会更加深刻一些。

两类内存管理方式

内存管理模块管理系统的内存资源，它是操作系统的核心模块之一。主要包括内存的初始化、分配以及释放。
从分配内存是否连续，可以分为两大类：

连续内存管理
为进程分配的内存空间是连续的，但这种分配方式容易形成内存碎片（碎片是难以利用的空闲内存，通常是小内存），降低内存利用率。连续内存管理主要分为单一连续内存管理和分区式内存管理两种。
非连续内存管理
将进程分散到多个不连续的内存空间中，可以减少内存碎片，内存使用率更高。如果分配的基本单位是页，则称为分页内存管理；如果基本单位是段，则称为分段内存管理。

当前的操作系统，普遍采用非连续内存管理方式。不过因为分配粒度较大，对于内存较小的嵌入式系统，一般采用连续内存管理。下面主要对嵌入式系统中常用的连续内存管理的分区式内存管理进行介绍。

分区式内存管理

分区式内存管理分为固定分区和动态分区。

固定分区
事先就把内存划分为若干个固定大小的区域。分区大小既可以相等也可以不等。固定分区易于实现，但是会造成分区内碎片浪费，而且分区总数固定，限制了可以并发执行的进程数量。
动态分区
根据进程的实际需要，动态地给进程分配所需内存。

动态分区内存管理

运作机制

动态分区管理一般采用空闲链表法，即基于一个双向链表来保存空闲分区。对于初始状态，整个内存块都会被作为一个大的空闲分区加入到空闲链表中。当进程申请内存时，将会从这个空闲链表中找到一个大小满足要求的空闲分区。如果分区大于所需内存，则从该分区中拆分出需求大小的内存交给进程，并将此拆分出的内存从空闲链表中移除，剩下的内存仍然是一个挂在空闲链表中的空闲分区。

数据结构

空闲链表法有多种数据结构实现，这里介绍一种较为简单的数据结构。每个空闲分区的数据结构中包含分区的大小，以及指向前一个分区和后一个分区的指针，这样就能将各个空闲分区链接成一个双向链表。
在这里插入图片描述

内存分配算法

First Fit（首次适应算法）
First Fit要求空闲分区链表以地址从小到大的顺序链接。分配内存时，从链表的第一个空闲分区开始查找，将最先能够满足要求的空闲分区分配给进程。
Next Fit（循环首次适应算法）
Next Fit由First Fit算法演变而来。分配内存时，从上一次刚分配过的空闲分区的下一个开始查找，直至找到能满足要求的空闲分区。查找时会采用循环查找的方式，即如果直到链表最后一个空闲分区都不能满足要求，则返回到第一个空闲分区开始查找。
Best Fit（最佳适应算法）
从所有空闲分区中找出能满足要求的、且大小最小的空闲分区。为了加快查找速度，Best Fit算法会把所有空闲分区按其容量从小到大的顺序链接起来，这样第一次找到的满足大小要求的内存必然是最小的空闲分区。
Worst Fit（最坏适应算法）
从所有空闲分区中找出能满足要求的、且大小最大的空闲分区。Worst Fit算法按其容量从大到小的顺序链接所有空闲分区。
Two Level Segregated Fit（TLSF）
TLSF算法主要是面向实时操作系统提出的，对于RTOS而言，执行时间的确定性是最根本的(吞吐量不一定高)，然而传统的动态内存分配器(DMA, Dynamic Memory Allocator)存在两个主要问题
1. 最坏情况执行时间不确定(not bounded)或者复杂度过高(bounded with a too important bound")
2. 碎片化问题(fragmentation)
TLSF的提出较好地解决了以上两个问题: 将动态内存的分配与回收时间复杂度都降到了O(1)时间复杂度，并且采用了Good-fit的分配策略保证系统运行时不会产生过多碎片。
TLSF(全称Two-Level Segregated Fit)，从命名来看主要分为三部分 Segregated Free List、Two-Level Bitmap、Good Fit，前两个是数据结构，第三个是分配策略。TLSF主要采用两级位图(Two-Level Bitmap)与分级空闲块链表(Segregated Free List)的数据结构管理动态内存池(memory pool)以及其中的空闲块(free blocks)，用Good-Fit的策略进行分配。

TLSF使用两层链表来管理空闲内存，将空闲分区大小进行分类，每一类用一个空闲链表表示，其中的空闲内存大小都在某个特定值或者某个范围内。这样存在多个空闲链表，所以又用一个索引链表来管理这些空闲链表，该表的每一项都对应一种空闲链表，并记录该类空闲链表的表头指针。

图中，第一层链表将空闲内存块的大小根据2的幂进行分类。第二层链表是具体的每一类空闲内存块按照一定的范围进行线性分段。比如25这一类，以23即8分为4个内存区间【25，25+8），【25+8，25+16），【25+16，25+24），【25+24，25+32）；216这一类，以214分为4个小区间【216，216+214），【216+214，216+2214），【216+2214，216+3214），【216+3214，216+4*214）。同时为了快速检索到空闲块，每一层链表都有一个bitmap用于标记对应的链表中是否有空闲块，比如第一层bitmap后3位010，表示25这一类内存区间有空闲块。对应的第二层bitmap为0100表示【25+16，25+24）这个区间有空闲块，即下面的52Byte。
Buddysystems（伙伴算法）
Segregated Fit算法的变种，具有更好的内存拆分和回收合并效率。伙伴算法有很多种类，比如BinaryBuddies，Fibonacci Buddies等。Binary Buddies是最简单也是最流行的一种，将所有空闲分区根据分区的大小进行分类，每一类都是具有相同大小的空闲分区的集合，使用一个空闲双向链表表示。BinaryBuddies中所有的内存分区都是2的幂次方。
因为无论是已分配的或是空闲的分区，其大小均为 2 的幂次方，即使进程申请的内存小于分配给它的内存块，多余的内存也不会再拆分出来给其他进程使用，这样就容易造成内部碎片。

当进程申请一块大小为n的内存时的分配步骤为：
1. 计算一个i值，使得2i-1<n≤2i
2. 在空闲分区大小为2i的空闲链表中查找
3. 如果找到空闲块，则分配给进程
4. 如果2i的空闲分区已经耗尽，则在分区大小为2i+1的空闲链表中查找
5. 如果存在2i+1的空闲分区，则将此空闲块分为相等的两个分区，这两分区就是一对伙伴，其中一块分配给进程，另一块挂到分区大小为2i的空闲链表中
6. 如果2i+1的空闲分区还是不存在，则继续查找大小为2i+2的空闲分区。如果找到，需要进行两次拆分。第一次拆分为两块大小为2i+1的分区，一块分区挂到大小为2i+1的空闲链表中，另一块分区继续拆分为两块大小为2i的空闲分区，一块分配给进程，另一块挂到大小为2i的空闲链表中
7. 如果2i+2的空闲分区也找不到，则继续查找2i+3，以此类推
在内存回收时，如果待回收的内存块与空闲链表中的一块内存互为伙伴，则将它们合并为一块更大的内存块，如果合并后的内存块在空闲链表中还有伙伴，则继续合并到不能合并为止，并将合并后的内存块挂到对应的空闲链表中。
SLAB算法
- 外部碎片：内存使用中会出现很多不连续的小的页片段，又不能被大尺寸内存申请到，造成内存碎片，浪费内存空间。内核中使用伙伴算法的迁移机制很好的解决了这种外部碎片。
- 内部碎片:当我们申请几十个字节的时候，内核也是给我们分配一个页，这样在每个页中就形成了很大的浪费。内核中引入了slab机制去尽力的减少这种内部碎片。
伙伴分配器（buddy allocator）是以页为单位管理和分配内存。但在内核中的需求却以字节为单位（在内核中面临频繁的结构体内存分配问题）。假如我们需要动态申请一个内核结构体（占 20 字节），若仍然分配一页内存，这将严重浪费内存。那么该如何分配呢？slab 分配器专为小内存分配而生，由Sun公司的一个雇员Jeff Bonwick在Solaris 2.4中设计并实现。slab分配器分配内存以字节为单位，基于伙伴分配器的大内存进一步细分成小内存分配。换句话说，slab 分配器仍然从 Buddy 分配器中申请内存，之后自己对申请来的内存细分管理。

slab分配器是基于对象进行管理的，所谓的对象就是内核中的数据结构（例如：task_struct,file_struct 等）。相同类型的对象归为一类，每当要申请这样一个对象时，slab分配器就从一个slab列表中分配一个这样大小的单元出去，而当要释放时，将其重新保存在该列表中，而不是直接返回给伙伴系统，从而避免内部碎片。slab分配器并不丢弃已经分配的对象，而是释放并把它们保存在内存中。slab分配对象时，会使用最近释放的对象的内存块，因此其驻留在cpu高速缓存中的概率会大大提高。

slab分配器的第二个任务是维护常用对象的缓存。对于内核中使用的许多结构，初始化对象所需的时间可等于或超过为其分配空间的成本。当创建一个新的slab 时，许多对象将被打包到其中并使用构造函数（如果有）进行初始化。释放对象后，它会保持其初始化状态，这样可以快速分配对象。

举例来说, 为管理与进程关联的文件系统数据, 内核必须经常生成struct fs_struct的新实例. 此类型实例占据的内存块同样需要经常回收(在进程结束时). 换句话说, 内核趋向于非常有规律地分配并释放大小为sizeof(fs_struct)的内存块. slab分配器将释放的内存块保存在一个内部列表中. 并不马上返回给伙伴系统. 在请求为该类对象分配一个新实例时, 会使用最近释放的内存块。S这有两个优点. 首先, 由于内核不必使用伙伴系统算法, 处理时间会变短. 其次, 由于该内存块仍然是”新”的，因此其仍然驻留在CPU硬件缓存的概率较高.[3]

SLAB分配器的最后一项任务是提高CPU硬件缓存的利用率。如果将对象包装到SLAB中后仍有剩余空间，则将剩余空间用于为SLAB着色。 SLAB着色是一种尝试使不同SLAB中的对象使用CPU硬件缓存中不同行的方案。通过将对象放置在SLAB中的不同起始偏移处，对象可能会在CPU缓存中使用不同的行，从而有助于确保来自同一SLAB缓存的对象不太可能相互刷新。通过这种方案，原本被浪费掉的空间可以实现一项新功能。

下面的表格对上面6种算法的优缺点进行了比较：

内存算法	优点	缺点
First Fit	高地址空间大空闲块被保留	低地址空间被不断拆分，造成碎片；每次都从第一个空闲分区开始查找，增加了查找时的系统开销
Next Fit	空闲分区分布比较均匀，算法开销小	缺乏大内存空闲块
Best Fit	用最小内存满足要求，保留大内存空闲块	每次分配后所拆分出来的剩余空闲内存总是最小的，造成许多小碎片，算法开销大
Worst Fit	每次分配后所拆分出来的剩余空闲内存仍较大，减少小碎片产生	缺乏大内存空闲块，算法开销大
TLSF	查找效率高，时间复杂度小，碎片问题表现良好	内存回收时算法复杂，系统开销大
Buddy systems	内部碎片比较严重	外部碎片较少