Linux必备的内核知识

用户模式和内核模式

执行进程的模式有两种:用户模式和内核模式。你编写的代码和执行所链接的库运行在用户模式下。需要内核服务时执行的内核代码只能在内核模式下运行。这是为了安全性考虑,用户模式可以确保一个进程只能访问自己的内存空间,如果破坏了自己内部结构,它也只能影响到自己,而不涉及其它的进程,更不会影响到整个系统。在用户模式下,进程能访问的内存称为用户空间

内核需要维护数据结构以控制系统中每个进程,它提供了一个所有进程共享的内存区域,为了保证安全性,内核代码和数据结构必须严格独立于用户代码和数据,只有内存代码可以在内核模式下运行,访问的共享内核数据以及执行权限指令。把进程在内核模式下访问的内存区域叫做内核空间。内核空间只有一个,在内核模式下的进程才能访问,但是内核空间是每个进程所特有的。

典型的32环境下的虚拟地址(3G/1G分配方式):

0xFFFFFFFF

Linux内核 内核空间(内存1G)

0xC0000000

0xBFFFFFFFF

进程A|B|C 用户空间(内存3G)

0x00000000

系统调用

进程通过系统调用进入和退出内核模式,许多POSIX函数是系统调用的简单封装,如open,close,ictol,write和read等。驱动设备只能在内核模式下执行,应用程序不能直接调用设备驱动程序,而是使用预定义的系统调用间接的访问驱动程序代码。

下面是系统调用read的一个例子:

#include <syscall.h>

….

n = syscall(SYS_read, fd, buffer, length)

Linux提供的系统调用列表由内核版本决定,并且不随时间变化而变化。然而,用于创建系统调用的机制却会因为不同处理器体系结构而不同。系统调用函数是一个用于创建系统调用的汇编代码的封装。命令strace对于追踪系统调用非常有用,因为利用它可以知道当前任务执行的情况。

通常用户代码先将参数压入堆栈或者保存在预定义的寄存器中,然后在使用中断调用系统调用处理器。中断处理器将进程转入到内核模式,并调用适当的系统调用。在内核模式下,它从寄存器中读取参数或使用特定的函数从用户空间复制参数。可移植程序不能直接使用系统调用,而是依赖库为其实现系统调用。系统调用随着操作系统版本变化而变化,库的调用则无需这些变化。

Linux使用syscall技术称为应用程序二进制接口(ABI),它并不是Linux所独有的。该技术可以用于其它操作系统,甚至是BOIS系统。它与API是不同的,API要求链接兼容的函数,而ABI步要求链接步需要运行的代码。这是可执行程序无需重建就可以在许多不同内核中运行的原因之一。一个运行在2.2内核下的静态链接的可执行程序可能在2.6内核下仍然可以运行,因为大多数常见的系统调用接口从不会变化。

用户空间和内核空间的数据传递

用户模式下的内核空间是不可见的,当访问用户空间时,内核模式也必须格外注意。因此,通过系统调用传送数据非常的麻烦。虽然简单的参数可以通过寄存器传递,但是大型的内存必须通过复制,导致效率相当的低下。一些系统调用(read/write)需要在用户模式和内核模式之间传递大量数据,虽然这些额外的复制作用不大,但是它能维持内核空间和用户空间的相对独立。

虽然复制在短期看来会降低程序的性能,但从长远来看它有助于性能的提高,例如文件系统高速缓存,当数据写入文件时,数据被写入磁盘之前会先写入到内核空间,所以write这个动作可以在后台完成,应用程序可以通过flush来刷新用户空间的缓冲,使得程序继续执行。

进程调度程序

解决多任务操作系统问题的算法叫做程序调度(Scheduler),Linux内核提供多种调度算法,并且允许用户在系统安装时选择合适的调度算法。

调度程序的调用通常嵌入到系统调用中,并在进程需要等待事件时发生。一个与设备进行大量通信的进程会经常调用调度程序,由于设备的速度很慢,进程的大部分运行时间都浪费在等待过程中,这样运行时不会耗费太多的CPU时间。

注:何为协同多任务处理(Cooperativer multitasking)

一个进程若不进行I/O,那就会占用大量的CPU时间,从而使得其它进程无法使用CPU,此时需要采用抢占式任务处理(Preemptive multitasking)。

每个Linux进程都有一个执行时间片或quantum,当一个进程因为时间片使用完被内核停止执行时,这个进程被抢占,如果有一个享有更高优先级的进程在就绪队列中,内核同样可以抢占正在执行的进程。一个进程也可以自动放弃CPU,可以通过sched_yield系统调用来放弃CPU。也可以通过其它系统调用(sleep)来实现对CPU的放弃。当进程在内核模式下等待一个事件时,称为阻塞(blocking)。一个阻塞进程既不会占用CPU,也不会被调度程序使用。

所有抢占式多任务处理操作系统都实现了按优先级调度策略。高优先权的进程总是比低优先级的进程先被调度。虽然用户可以影响进程的优先级,但进程的优先级最终还是由内核决定。Linux内核通过使用动态优先级(Dynamic Priority),不断提高和降低正在运行进程的优先级,从而使得低优先级的进程也能运行。

Linux内核调度策略一个重要目的是保证所有进程都有机会被调度,也就是说每个任务都有相应的使用CPU的时间。进程的有效优先级就是静态优先级和额外值之和,这个额外值可正可负。

ps命令选项中-C显示进程与参数的配对项,如-C <proc_name>,-o用于控制输出的格式,如etime,pid,pri,cmd。

内核允许用户通过使用一个名为nice的数值来影响调度程序关于优先级的调度。正的nice可以降低优先级,负的nice可以提高优先级。请查看ice和renice命令。

实时优先权

响应时间是指软件响应外部事件的时间,比如中断。严格的响应时间的应用程序通常被称为实时应用程序。Linux中实时进程的优先级范围是41-139,实时优先级越大,优先级越高。实时优先级在整个生命周期中值是不变的。

在设计实时进程时,必须确定它的调度策略,POSIX为实时进程指定了两种策略:先进先出(FIFO)和时间片法(round robin)。

创建实时进程的方法就是使用chrt命令,chrt在内部调用fork和exec和POSIX函数来设置优先级,函数如下:

int sched_setscheduler(pid_t pid, int policy, const struct sched_param*p);

int pthread_setschedparam(pthread_t thread, int policy, const struct sched_param*p);

int sched_get_priority_min/max(int policy);

第一个为进程服务,第二个为线程服务。

# sodu chrt --fifo 50 ./chewer &

进程状态

在进程的生命周期中,进程经历几种不同的状态,使用ps命令或cat /proc文件系统查看,进程状态如下:

R-运行或将要运行

S-被中断等待一个事件,可能会被一个信号激活

D-被中断等待一个事件,不会被信号激活

T-由于任务的控制或者外部追踪而被终止,比如ptrace

Z-僵死,但是它的父进程没有调用wait函数。

一个进程处于不可中断状态是一件危险的事情,只能重启计算机来修补。

当一个进程退出时并不完全小时,而是等到父进程发出wait系统调用才会完全消失,否则一直会处于僵死状态,等待它的父进程终止它。僵死进程步占用内存和进程资源,但是可以铜鼓ps命令显示出来,它被init收养(adopted),init进程会定期的调用wait命令来回收这些未被撤销的进程。

内核能追踪每个进程的运行时间,内核记录每个进程分别用在用户空间和内核空间的时间,命令time很有用。如果进程在用户空间耗费太多时间,就不能抱怨内核。造成这样的结果可能是代码或者连接的库函数问题,而不是内核的原因。用strace来跟踪为何会在系统调用上耗费太多的时间的问题。如果代码因为设备阻塞或者系统调用而运行太慢,几乎没有什么方法可以提高代码的运行速度,最好避免做那些调用,也可以试一试对应用程序采用线程方法或者异步I/O操作。

Linux内核时钟标准单位为jiffy,内部时钟有硬件计数器以一定频率产生中断得到,这个频率在内核编译时已经确定,它存储在HZ的宏中。中断频率的提高会增加CPU的使用,加快消耗电池的电量速度。可以使用make memuconfig进行时间频率设置。

使用sysfs的示例:一个用于追踪内部时钟的小模块。

Hz.c:

#include "linux/module.h"

int user_hz = USER_HZ;

int hz = HZ;

module_param(user_hz, int, 0444);

module_param(hz, int, 0444);

Makefile:

all:

make -C /lib/modules/`uname -r`/build M=`pwd` modules

obj-m+=hz.o

编译、安装和查看:

# make

# insmod hz.ko

# cat /sys/module/hz/parameters/user_hz

# cat /sys/module/hz/parameters/hz

Intel的物理地址扩展(PAE)

在电脑上安装的RAM数量不受限制,只是受制于主板上的DIMM数量,处理器可以选址的物理内存数量受限。通常,CPU的字长决定了这个限制,一个32为机器只能存储32位的指针,因此物理地址限制为4GB。

当需要增加DRAM大于4GB的解决办法是转换为64位体系结构,这意味着你的所有应用程序放到一个新的平台上,这是个相当高的解决方案。

Intel公司的Physical Address Extension(PAE)技术允许处理器通过页面地址从20bit扩展到24bit,从而可以寻址64GB的RAM,页面大小可以改变,所以偏移量仍然为12bit,这意味着有效物理地址为36bits。因为逻辑地址必须符合32为寄存器,处理器仍然只能选址4GB的虚拟内存。

MMU和操作系统使用页面地址管理页面,所以分配给缓存或者进程页面时候,操作系统可以随意使用24bits的页面地址,因此,系统可以用的虚拟内存是有效的64GB。

注:pmap命令查看内存分配,# jobs -x pmap %1

内核调试工具:

# mkswap, swapon, swapoff – 用于分区交换的工具

# nice,renice,chrt – 用于影响调度行为的工具

# pmap – 用于显示进程虚拟内存的工具

# ps,time,times – 用于显示进程在用户态和内核态的花费时间

# strace – 用于分析程序进行系统调用行为的一种绝佳工具

内核调试API:

# clock_getres, clock_gettime – 高分辨率的POSIX时钟

# getrusage,times – 查看资源使用情况的库函数

# mallopt – 属于GNU的API,用于设置动态分配内存行为

# mlock, munlock – 用于在ram总锁定页

# mmap, msync, madvise – 内存在RAM和磁盘上如何释放

# pthread_setschedparam – 为线程选择一个时序安排策略

# sysconf – 显示系统常量的配置细节内容

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值