Linux内核内存布局

内核内存布局

64位Linux一般使用48位来表示虚拟地址空间,43位表示物理地址, 通过命令:cat /proc/cpuinfo。
在这里插入图片描述

cat /proc/meminfo
在这里插入图片描述

ARM64架构处理器采用48位物理寻址机制,最大可寻找256TB的物理地址空间。对于目前应用完全足够,不需要扩展到64位的物理寻址。虚拟地址也同样最大支持48位寻址,所以 在处理器架构设计上,把虚拟地址空间划分为两个空间,每个空间最大支持256TB,linux内核在大多数体系结构上都把两个地址划分为:用户空间和内核空间。
用户空间:0x0000_0000_0000_0000至0x0000_ffff_ffff_ffff。
内核空间:0xffff_0000_0000_0000至0xffff_ffff_ffff_ffff。

内存布局

QEMU平台,可以打印ARM64架构linux内核内存分布情况。
在这里插入图片描述

堆管理

堆是进程中主要用于动态分配变量和数据 的内存区域,堆的管理对应程序员不是直接可见的。因为它依赖标准库提供的各个辅助函数(其 中最重要的是malloc)来分配任意长度的内存区。 malloc和内核之间的经典接口是brk系统调用,负责扩展/收缩堆。 堆是一个连续的内存区域,在扩展时自下至上增长。其中mm_struct结构,包含堆在虚拟地 址空间中的起始和当前结束地址(start_brk和brk)。

sys_brk流程

在这里插入图片描述

brk机制基于匿名映射实现,以减少内部的开销。在检查过用于brk的值的新地址未超出堆的限制之后,sys_brk第一个重要的操作是将请求的地址按页长对齐。
brk()用于用户进程想内核申请空间,用于扩展用户堆栈空间,或者回收用户堆栈空间。
malloc()为小空间申请,brk()为大空间申请。do_brk()用于增长动态分配区。do_munmap()释放动态分配区。

do_brk()源码分析
/*
 *  this is really a simplified "do_mmap".  it only handles
 *  anonymous maps.  eventually we may be able to do some
 *  brk-specific accounting here.
 */
// 将addr位置向后继续申请len字节长度,用于扩展堆的内存长度
static unsigned long do_brk(unsigned long addr, unsigned long len)
{
	struct mm_struct *mm = current->mm;
	struct vm_area_struct *vma, *prev;
	unsigned long flags;
	struct rb_node **rb_link, *rb_parent;
	pgoff_t pgoff = addr >> PAGE_SHIFT;
	int error;
	// 对len这个长度进行页面对齐,判断页面对齐之后是否超界
	len = PAGE_ALIGN(len);
	if (!len)
		return addr;

	flags = VM_DATA_DEFAULT_FLAGS | VM_ACCOUNT | mm->def_flags;
	// 检查是否有足够的内存空间来分析len大小的内存。判断虚拟地址空间是否有足够的空间
	error = get_unmapped_area(NULL, addr, len, 0, MAP_FIXED);
	if (offset_in_page(error))
		return error;

	error = mlock_future_check(mm, mm->def_flags, len);
	if (error)
		return error;

	/*
	 * mm->mmap_sem is required to protect against another thread
	 * changing the mappings in case we sleep.
	 */
	verify_mm_writelocked(mm);

	/*
	 * Clear old maps.  this also does some error checking for us
	 */
	// 循环遍历用户进程红黑树中的VMA,根据addr查找合适的插入点
	while (find_vma_links(mm, addr, addr + len, &prev, &rb_link,
			      &rb_parent)) {
		if (do_munmap(mm, addr, len))
			return -ENOMEM;
	}

	/* Check against address space limits *after* clearing old maps... */
	// 检查是否要对虚拟区间进行扩充
	if (!may_expand_vm(mm, len >> PAGE_SHIFT))
		return -ENOMEM;

	if (mm->map_count > sysctl_max_map_count)
		return -ENOMEM;
	// 判断系统是否有足够的内存
	if (security_vm_enough_memory_mm(mm, len >> PAGE_SHIFT))
		return -ENOMEM;

	/* Can we just expand an old private anonymous mapping? */
	// 判断是否可以合并 
	vma = vma_merge(mm, prev, addr, addr + len, flags,
			NULL, NULL, pgoff, NULL, NULL_VM_UFFD_CTX);
	if (vma)
		goto out;

	/*
	 * create a vma struct for an anonymous mapping
	 */
	// 没有办法合并 新创建一个VMA VMA地址空间是[addr, addr+len]
	vma = kmem_cache_zalloc(vm_area_cachep, GFP_KERNEL);
	if (!vma) {
		vm_unacct_memory(len >> PAGE_SHIFT);
		return -ENOMEM;
	}

	INIT_LIST_HEAD(&vma->anon_vma_chain); //指向匿名域指针
	vma->vm_mm = mm; 
	// 分别保存虚拟内存空间的首地址 末地址 单位字节
	vma->vm_start = addr;
	vma->vm_end = addr + len;
	vma->vm_pgoff = pgoff; //文件映射的偏移量 单位页面
	// VM_EXEC:可以被执行
	// VM_IO:这个区间映射一个设备的I/O地址空间
	// VM_SHM:页用于IPC内存共享
	// VM_SHARED:页可以被多个进程共享
	vma->vm_flags = flags; //保存VMA标志位
	vma->vm_page_prot = vm_get_page_prot(flags); //访问权限
	vma_link(mm, vma, prev, rb_link, rb_parent); 
out: //增加进程地址空间长度
	perf_event_mmap(vma);
	mm->total_vm += len >> PAGE_SHIFT;
	if (flags & VM_LOCKED)
		mm->locked_vm += (len >> PAGE_SHIFT);
	vma->vm_flags |= VM_SOFTDIRTY;
	return addr;
}
大内核锁BKL
  • 递归锁:嵌套上锁解锁。
  • 自动释放特性。
  • 本质上自旋锁,不同在于自旋锁不可以递归获取锁(会导致死锁),大内核锁可以递归获取锁,保护整个内核。保持锁的时间太长,严重影响系统性能和可伸缩性,因而被淘汰。
    【注意】
    原子操作对整数操作,自旋锁和信号量应用比较广泛。当临界区小应该选择自旋锁,反之应该信号量。
per-CPU计数器

引入目的是加速SMP系统上计数器操作。
基本原理:
计数器的准确值存储在内存中的某一个地址,准确值所在内存位置之后是一个数组,每个数组想对应于系统中的一个CPU。
Linux系统尤其是针对SMP或者NUMA架构的多CPU系统的时候,主要描述每个CPU私有数据时,系统提供该机制per-cpu。
三种CPU模式:x86 x64 ia64
X86表示基于X86指令安装模式;
x64表示64位系统程序;
ia64主要用于企业级服务器,inter安腾架构基于a64处理器架构的服务器,64位运算能力、寻址空间,数据处理能力方面突破性提高。

总结

本文介绍了内核的内存布局,分布情况,堆管理,malloc与brk区别,大内核锁,per-CPU计数器等。

技术参考

本文技术点出处:Linux内核源码视频系列:https://ke.qq.com/course/3294666

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值