从 system_call走进linux系统调用

最新推荐文章于 2023-06-28 16:25:12 发布

初秋的风

最新推荐文章于 2023-06-28 16:25:12 发布

阅读量4.4k

点赞数

分类专栏： linux内核分析 liunx相关

本文链接：https://blog.csdn.net/CLP_CSDNID/article/details/50990523

版权

liunx相关同时被 2 个专栏收录

37 篇文章 0 订阅

订阅专栏

linux内核分析

13 篇文章 0 订阅

订阅专栏

慕课18原创作品转载请注明出处 + 《Linux内核分析》MOOC课程http://mooc.study.163.com/course/USTC-1000029000

<一>、课程实验：添加系统调用到MenuOS，并用GDB跟踪调试。

一、将系统调用uname 添加到MenuOS

1、在test.c中添加使用了系统调用uname 的函数的C语言版本和汇编版本（具体内容）

操作很简单，只要把上次的代码直接copy过来（改一下函数名和返回值、参数就可以了），这里就不再罗嗦，直接给出改好的（在csdn里面排版很不方便，就直接用图片了）：

2、将函数代码添加到test.c中后，就重新打包我们的文件系统

进入到目录menu中：
编译：输出文件为init，-m32 表示编译成32位，-lpthread 表示的是加载静态库pthread.a
打包为文件系统镜像“root@CaiLP:~/linuxkernel/menu# find . | cpio -o -Hnewc |gzip -9 > ../rootfs.img ”
用qemu 模拟启动内核，并用rootfs.img 初始化ram disk（-initrd）“ qemu -kernel linux-3.18.6/arch/x86/boot/bzImage -initrd rootfs.img ”

操作结果如图所示：

从图中可以看到，内核已经被加载，我们的文件系统也已经被运行，输入help，显示了但钱支持的所有命令，并且我们新添加的uname-asm 和uname-c也已经可用。

输入 uname-asm 后终端打印出了内核的相关参数信息。

3、用GDB跟踪系统调用

在终端输入：qemu -kernel linux-3.18.6/arch/x86/boot/bzImage -initrd rootfs.img -s -S （指令的解释请参看上一篇这里不赘述）
然后在打开一个终端，输入gdb；
在新打开的终端中输入：file vmlinux 加载符号集
输入 target remote:1234 链接端口
输入：break sys_newuname 调用uname系统调用处设置断点， sys_newuname 为uname在内核中的调用名。

操作的结果如图所示：

如果继续单步运行，接下来的代码无法调试

关于System_call的调试
Linux的内核和System Call不好调试。简单来说，如果想在本机调试system call，那么当你进入system call时，系统已经在挂起状态了。如下所说：
Debugging on Linux is implemented via the ptrace(2) system call; ptrace can only inspect and stop processes running in userspace. I would expect that FreeBSD's process debugging mechanism is similar, and only designed to work on userspace processes: because the OS kernel will acquire and release locks as well as respond to interrupts quickly, designing the kernel to allow full-featured debugging from userspace seems very unlikely.
如果想要跟踪调试system_call(kgdb),可以使用：

UML方式
使用串口／别的机器

PS:具体参考：http://stackoverflow.com/questions/5999205/cannot-step-into-system-call-source-code,这里不再赘述。

二、system_call 汇编代码分析

system_call 是由汇编语言编写，放在linux-source-2.6.32/arch/x86/kernel/entry_32.S ，linux-source-2.6.32是linux源码解压后的文件夹。

ENTRY(system_call)
    RING0_INT_FRAME
    ASM_CLAC
    pushl_cfi %eax
    SAVE_ALL
    GET_THREAD_INFO(%ebp)
    testl $_TIF_WORK_SYSCALL_ENTRY,TI_flags(%ebp)
    jnz syscall_trace_entry
    cmpl $(NR_syscalls), %eax
    jae syscall_badsys
syscall_call:
    call *sys_call_table(,%eax,4)
syscall_after_call:
    movl %eax,PT_EAX(%esp)
syscall_exit:
    LOCKDEP_SYS_EXIT
    DISABLE_INTERRUPTS(CLBR_ANY)
    TRACE_IRQS_OFF
    movl TI_flags(%ebp), %ecx
    testl $_TIF_ALLWORK_MASK, %ecx
    jne syscall_exit_work
restore_all:
    TRACE_IRQS_IRET
restore_all_notrace:
#ifdef CONFIG_X86_ESPFIX32
    movl PT_EFLAGS(%esp), %eax
    movb PT_OLDSS(%esp), %ah
    movb PT_CS(%esp), %al
    andl $(X86_EFLAGS_VM | (SEGMENT_TI_MASK << 8) | SEGMENT_RPL_MASK), %eax
    cmpl $((SEGMENT_LDT << 8) | USER_RPL), %eax
    CFI_REMEMBER_STATE
    je ldt_ss
#endif
restore_nocheck:
    RESTORE_REGS 4
irq_return:
    INTERRUPT_RETURN
.section .fixup,"ax"
ENTRY(iret_exc)
    pushl $0            # no error code
    pushl $do_iret_error
    jmp error_code
.previous
    _ASM_EXTABLE(irq_return,iret_exc)
#ifdef CONFIG_X86_ESPFIX32
    CFI_RESTORE_STATE
ldt_ss:
#ifdef CONFIG_PARAVIRT
    cmpl $0, pv_info+PARAVIRT_enabled
    jne restore_nocheck
#endif

#define GDT_ESPFIX_SS PER_CPU_VAR(gdt_page) + (GDT_ENTRY_ESPFIX_SS * 8)
    mov %esp, %edx
    mov PT_OLDESP(%esp), %eax
    mov %dx, %ax
    sub %eax, %edx
    shr $16, %edx
    mov %dl, GDT_ESPFIX_SS + 4
    mov %dh, GDT_ESPFIX_SS + 7
    pushl_cfi $__ESPFIX_SS
    pushl_cfi %eax
    DISABLE_INTERRUPTS(CLBR_EAX)
    lss (%esp), %esp
    CFI_ADJUST_CFA_OFFSET -8
    jmp restore_no-check
#endif
    CFI_ENDPROC
ENDPROC(system_call)

这汇编代码很复杂，很多宏定义交错在一起，逐条的分析难度很大，但是有一些重点的模块还是可以猜出大概的意思（有不正确的地方请指正！）

1、在进入system_call 后，正式切换到系统调用例程之前，是一大堆的入栈操作如：pushl： %eax 。SAVE_ALL //SAVE_ALL 是一个处理过程，也定以在entry.S中，进行的也是一堆的入栈操作，将各种寄存器的值保存到堆栈中，以备返回用户程序时恢复现场。压入堆栈的顺序对应着结构体struct pt_regs ，当出栈的时候，就将这些值传递到结构体struct pt_regs里面的成员，从而实现从汇编代码向C程序传递参数。struct pt_regs 位于：linux/arch/x86/include/asm/ptrace.h。

2、GET_THREAD_INFO 宏获得当前进程的thread_info结构的地址，获取当前进程的信息。

3、CFI_ADJUST_CFA_OFFSET X 是存储单元对其指令，CFI是Canonical Format Indicator 标准格式指示位的缩写。所以后面遇到CFI开头的指令，我们都把它当成是“修饰性”的指令，对整体的功能框架不影响。（不确定，理解错了请指正）

push_cfi 的定义在：linux-3.18.6/arch/x86/include/asm/dwarf2.h

.macro pushl_cfi reg
pushl \reg
CFI_ADJUST_CFA_OFFSET 4
.endm

4、testl $_TIF_WORK_SYSCALL_ENTRY,TI_flags(%ebp)
jnz syscall_trace_entry #比较结果不为零的时候跳转。

   # system call tracing in operation / emulation
   #thread_inof结构中flag字段的_TIF_SYSCALL_TRACE或_TIF_SYSCALL_AUDIT
   #被置1。如果发生被跟踪的情况则转向相应的处理命令处。

_TIF_WORK_SYSCALL_ENTRY是定义的一个宏，在文件 arch/x86/include/asm/thread_info.h 中定义如下:

/* work to do in syscall_trace_enter() */

TIF 是Thread Information Flags 的缩写。
5、cmpl $(nr_syscalls), %eax

jae syscall_badsys

test逻辑与运算结果为零,就把ZF(零标志)置1;
cmp 算术减法运算结果为零,就把ZF(零标志)置1.

//NR_syscalls是一个宏定义，在文件 kernel/asm-offsets.s中： NR_syscalls $358 sizeof(syscalls)，保存的是当前内核支持的系统调用的总数，这里与%eax的值进行比较是为了判断进程提供的调用号是否超出范围。

对用户态进程传递过来的系统调用号的合法性进行检查。如果不合法则跳转到syscall_badsys标记的命令处。

6、比较结果大于或者等于最大的系统调用号的时候跳转，合法则跳转到相应系统调用号所对应的服务例程当中，也就是在sys_call_table表中找到了相应的函数入口点。由于sys_call_table表的表项占4字节，因此获得服务例程指针的具体方法是将由eax保存的系统调用号乘以4再与sys_call_table表的基址相加。

call *sys_call_table(,%eax,4)
movl %eax,PT_EAX(%esp) # store the return value 返回值默认都是保存在%eax中带出来。

sys_call_table位于：linux/arch/x86/kernel/syscall_table_32.S

7、执行完处理程序后：

syscall_exit:
   LOCKDEP_SYS_EXIT
   DISABLE_INTERRUPTS(CLBR_ANY)   # make sure we don't miss an interrupt setting need_resched or sigpending between sampling and the iret
   TRACE_IRQS_OFF

   movl TI_flags(%ebp), %ecx        // 检查任务标记，退出系统调用之前,检查是否需要处理信号
   testl $_TIF_ALLWORK_MASK, %ecx   # current->work
   jne syscall_exit_work                   //如果需要就转去执行退出相关的操作，否则继续执行 restore all准备退出。

CLBR_ANY在文件：/arch/x86/include/asm/paravirt_types.h中定义如下：#define CLBR_ANY ((1 << 4) - 1)

8、从标号restaore_all 往后就都是执行退出调用相关的操作，只不过，在这个过程中做了很多的检查性工作。

关于任务的堆栈的详细解释，可以查看下一篇：任务的堆栈，里面介绍了堆栈的基础相关知识，以及用户态堆栈与内核态堆栈的区别与联系。

三、总结：执行系统调用的流程：

先给出一个很不错的图：

高清版本的可以访问http://www.makelinux.net/kernel_map/

下面是应用程序与内核之间的一个大的关系：

下面看一下进入system_call后，内核的工作过程：

1、系统调用的整个过程从轮廓上来看，跟之前的任务调度基本一致：

SAVE ALL保存现场进入内核空间
............
执行处理程序
............
RESTORE_ALL恢复现场，返回用户空间

不同的是，由于要进入到内核空间操作，除了上下文的切换以外，还要做很多安全性的检查；而且内核是所有任务共有的，这个任务可以调用内核，那个任务也可以调用内核，在优先级不同时，就可能会嵌套发生；因此系统调用要复杂得多。
2、与用户态的函数库调用执行过程相比，系统调用执行过程的有四点主要的不同：

不是通过“CALL”指令而是通过“INT”指令发起调用；
不是通过“RET”指令，而是通过“IRET”指令完成调用返回；
当到达内核态后，操作系统需要严格检查系统调用传递的参数，确保不破坏整个系统的安全性；
执行系统调用可导致进程等待某事件发生，从而可引起进程切换；

linux内核水太深，还需继续探讨！有理解不对的地方希望大家指正！

参考：

http://www.makelinux.net/

http://www.makelinux.net/kernel_map/

http://www.jianshu.com/p/765fc517612f

http://www.cnblogs.com/zhuyp1015/archive/2012/05/29/2524936.html （牛）

http://blog.csdn.net/adc0809608/article/details/7417180

https://en.wikipedia.org/wiki/System_call

Linux AT&T 汇编语言开发指南

初秋的风

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
从 system_call走进linux系统调用

慕课18原创作品转载请注明出处 + 《Linux内核分析》MOOC课程http://mooc.study.163.com/course/USTC-1000029000、课程实验：添加系统调用到MenuOS，并用GDB跟踪调试。一、将系统调用uname 添加到MenuOS1、在test.c中添加使用了系统调用uname 的函数的C语言版本和汇编版本（具体内容）操作很简单
复制链接

扫一扫