【Linux】进程信号概念 | 核心转储 | 信号的产生

_宁清

已于 2024-02-17 19:11:03 修改

阅读量1.3k

点赞数 27

分类专栏： Linux系统编程文章标签： linux 运维服务器进程信号核心转储 core dump 信号的产生

于 2024-02-13 15:50:15 首次发布

本文链接：https://blog.csdn.net/m0_73898917/article/details/136107061

版权

Linux系统编程专栏收录该内容

14 篇文章 0 订阅

订阅专栏

进程信号重点：

1.掌握Linux信号的基本概念
2.掌握信号产生的一般方式
3.理解信号递达和阻塞的概念，原理。
4.掌握信号捕捉的一般方式。
5.重新了解可重入函数的概念。
6.了解竞态条件的情景和处理方式
7.了解SIGCHLD信号，重新编写信号处理函数的一般处理机制

学习的顺序：产生 -> 保存 -> 处理

一、信号入门

1.1 生活中的信号

你在网上买了很多件商品，再等待不同商品快递的到来。但即便快递没有到来，你也知道快递来临时，你该怎么处理快递。也就是你能“识别快递”
当快递员到了你楼下，你也收到快递到来的通知，但是你正在打游戏，需5min之后才能去取快递。那么在在这5min之内，你并没有下去去取快递，但是你是知道有快递到来了。也就是取快递的行为并不是一定要立即执行，可以理解成“在合适的时候去取”。
在收到通知，再到你拿到快递期间，是有一个时间窗口的，在这段时间，你并没有拿到快递，但是你知道有一个快递已经来了。本质上是你“记住了有一个快递要去取”
当你时间合适，顺利拿到快递之后，就要开始处理快递了。而处理快递一般方式有三种：
1. 执行默认动作（幸福的打开快递，使用商品）
2. 执行自定义动作（快递是零食，你要送给你你的女朋友）
3. 忽略快递（快递拿上来之后，扔掉床头，继续开一把游戏）
快递到来的整个过程，对你来讲是异步的，你不能准确断定快递员什么时候给你打电话

1.2 进程角度的信号

进程就是你，操作系统就是快递员，信号就是快递。通过快递的例子，可以给出对进程信号的特点：

信号没有产生的时候，其实进程已经能够知道怎么处理这个信号了
信号的到来，进程并不清楚具体什么时候，信号到来相对于进程正在做的工作，是异步产生的
信号产生了，进程不一定要立即处理它，而是进程在合适的时候处理
进程要有一种能力，将已经到来的信号，进行暂时保存

1.3 信号的概念

信号的概念：信号是进程之间事件异步通知的一种方式，属于软中断

信号来源： 信号可以由操作系统、其他进程，或者进程自身生成。例如，操作系统可以通过内核向进程发送信号来通知某个事件的发生，如进程终止请求。
信号处理： 进程可以通过注册信号处理函数来定义在接收到特定信号时应该执行的操作。这样，当进程收到信号时，操作系统会调用相应的信号处理函数来处理该信号。
信号传递： 信号可以通过操作系统向目标进程发送。例如，可以使用kill命令向指定的进程发送信号。信号传递涉及到进程间通信，因此通常需要经过操作系统来完成。

即使一个进程向另一个进程发送信号，也需要经过操作系统。这是因为操作系统负责维护进程之间的隔离和通信机制，确保正确且安全地进行信号传递。在Linux中，可以使用系统调用（如kill）或库函数（如kill()函数）由一个进程来向其他进程发送信号，但实际的信号传递过程会由操作系统处理。

异常的原因是因为进程收到了操作系统发的信号，但是进程收到信号并不意味着法生了异常。

总的来说，无论信号是由操作系统、其他进程还是进程自身生成，都需要经过操作系统来传递。

1.4 信号的三种常见处理方式

（sigaction函数稍后详细介绍），可选的处理动作有以下三种：

忽略此信号
执行该信号的默认处理动作
提供一个信号处理函数，要求内核在处理该信号时切换到用户态执行这个处理函数,这种方式称为捕捉(Catch)一个信号

二、信号的产生

产生信号的方式可以有很多（譬如：由操作系统、其他进程，或者进程自身产生），但是向目标进程发送信号只能由操作系统发送，因为操作系统是进程的管理者，发送信号的本质是修改PCB中的信号位图。

2.1 通过终端按键产生信号

面对下面的死循环程序：

#include <stdio.h>
#include <unistd.h>

int main()
{
	while (1){
		printf("hello signal!\n");
		sleep(1);
	}
	return 0;
}

我们可以：

按 Ctrl+C 终止该进程（止有前台进程才能拿到这个信号，bash支持多个后台进程和一个前台进程）
按 Ctrl+ \ 也可以终止该进程
按 Ctrl+Z 可以暂停该进程，前台进程不能被暂停，如果此进程是前台进程，按下该按键后该前台进程立即变成后台进程。

问题1：OS怎么知道键盘输入了Control+C ？

以下是大致的处理流程：

Ctrl+C键盘组合被按下： 当用户在终端中按下Ctrl+C时，终端设备会生成一个中断信号。

中断信号处理： 中断信号通常由操作系统的中断处理机制处理。在这个特定的情况下，Ctrl+C产生的中断信号是SIGINT（中断信号）。

终端驱动程序： 终端驱动程序是一个运行在内核中的软件组件，负责管理终端设备。当中断信号发生时，终端驱动程序负责通知前台进程（与该终端相关联的当前运行的进程）。

前台进程的中断处理： 操作系统会检查当前运行在终端的前台进程是否注册了对SIGINT信号的处理函数。如果注册了，操作系统会执行相应的信号处理函数。

默认中断处理： 如果前台进程没有注册对SIGINT的处理函数，操作系统将采用默认的中断处理方式，即终止该进程。

中断向量表： 中断向量表是一个由操作系统维护的数据结构，其中包含中断号和相应中断服务程序的映射关系。当中断发生时，操作系统会根据中断号查找中断向量表，以确定应该执行哪个中断服务程序。

总体而言，Ctrl+C的作用是生成一个中断信号，然后由终端驱动程序通知前台进程。前台进程对中断信号的处理方式可以是自定义的，如果没有自定义，系统将采用默认的中断处理方式，即终止进程。中断向量表在这个过程中用于确定中断号对应的中断服务程序。

问题2：按`Ctrl+C`终止进程和按`Ctrl+\`终止进程，有什么区别？

按 Ctrl+C 实际上是向进程发送2号信号 SIGINT
按 Ctrl+</button> 实际上是向进程发送3号信号 SIGQUIT

通过：

man 7 signal

查看这两个信号的默认处理动作，可以看到这两个信号的 Action 是不一样的，2号信号是 Term ，而3号信号是 Core ：
请添加图片描述

Term和Core都代表着终止进程，但是Core在终止进程的时候会进行一个动作，那就是核心转储：
请添加图片描述

问题3：核心转储 (core dump)

1. 为什么核心转储在云服务器上是默认关闭的？

用ulimit -a 查询当前资源限制的设定：请添加图片描述

在云服务器上，默认情况下禁用核心转储主要是为了节省存储空间和保护用户隐私。生成核心转储文件可能会占用大量磁盘空间，而且这些文件可能包含敏感信息。因此，为了避免不必要的存储占用和信息泄露，云服务器通常默认关闭核心转储功能。在一般的Linux虚拟机中核心转储默认打开。

2. ulimit -c + size 命令修改core文件的大小

ulimit 命令用于设置或显示用户级资源限制。通过 ulimit -c 命令可以设置或查看核心转储文件的最大大小：请添加图片描述

ulimit -c unlimited 可以设置为不限制核心转储文件的大小
ulimit -c 0 则表示禁用核心转储。

3. 核心转储有什么用？

核心转储文件包含了程序崩溃时的 内存快照（进程地址空间） 和 寄存器状态 ，通过分析核心转储文件，开发人员可以了解程序崩溃时的内部状态，帮助定位和解决软件缺陷。核心转储文件还可以用于回溯调试，还原崩溃时的上下文。这个磁盘文件也叫做核心转储文件，一般命名为core.pid。

core文件的大小设置完毕后，就相当于将核心转储功能打开了。此时如果我们再使用Ctrl+\对进程进行终止，就会发现终止进程后会显示core dumped：请添加图片描述

4. 使用core文件进行gdb调试

使用 gdb（GNU Debugger）来分析核心转储文件是常见的基本步骤：

确保程序编译时开启了调试信息，即 -g 选项：

proc:process.cc
    g++ -o $@ $^ -std=c++11 -g
.PHONY:clean
clean:
    rm -f proc
    rm -f core.*

启动 gdb 并指定程序可执行文件和核心转储文件：core-file core.pid
在 gdb 中可以使用 bt（backtrace）命令来查看函数调用栈，info registers 命令来查看CPU寄存器状态：

通过结合核心转储文件和 gdb 的功能，开发人员可以更容易地理解程序崩溃的原因，修复缺陷，提高软件的稳定性。

5. 退出状态的core dump比特位

在 Linux 进程控制中我们学习了使用wait和waitpid来等待子进程：

  #include <sys/types.h>
  #include <sys/wait.h>
  pid_t wait(int *status);
  pid_t  waitpid(pid_t  pid, int *status, int options);

wait和waitpid，都有一个status参数，该参数是一个输出型参数，由操作系统填充。
如果传递NULL，表示不关心子进程的退出状态信息。
否则，操作系统会根据该参数，将子进程的退出信息反馈给父进程。
status不能简单的当作整形来看待，可以当作位图来看待，具体细节如下图（只研究status低16比特

如果子进程被信号所杀，它传给父进程的status的第七个比特位会包含core dump信息，第7个比特位为1，即可说明子进程在被终止时进行了核心转储。

用下面的代码测试：

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <sys/wait.h>
#include <sys/types.h>

int main()
{
	if (fork() == 0)
	{
		//child
		printf("I am running...\n");
		int *p = NULL;
		*p = 100;
		exit(0);
	}
	//father
	int status = 0;
	waitpid(-1, &status, 0);
	printf("exitCode:%d, coreDump:%d, signal:%d\n",
		(status >> 8) & 0xff, (status >> 7) & 1, status & 0x7f);
	return 0;
}

请添加图片描述

2.2 命令级kill

我们使用kill -l命令可以查看Linux当中的信号列表：
请添加图片描述

其中1~31号信号是普通信号，34~64号信号是实时信号，普通信号和实时信号各自都有31个，每个信号都有一个编号和一个宏定义名称，可以查看/usr/include/linux/signal.h文件以获取系统支持的所有普通信号：请添加图片描述

实时信号的相关定义通常在<signal.h>头文件中。

当我们要使用kill命令向一个进程发送信号时，我们可以以kill -信号名进程ID的形式进行发送：请添加图片描述

注意：如果开启了core dump，想要kill掉后台的一个死循环进程，右边的bash在kill之后要按两下回车才能看到Segmentation fault 信息。
因为在死循环进程终止掉之前已经回到了Shell提示符等待用户输入下一条命令,Shell不希望Segmentation fault信息和用户的输入交错在一起,所以等用户输入命令之后才显示：请添加图片描述

指定发送某种信号的kill命令可以有多种写法,上面的命令还可以写成kill -SIGSEGV 4568 或kill -11 4568，11是信号SIGSEGV的编号。以往遇到的段错误都是由非法内存访问产生的,而这个程序本身没错，给它发SIGSEGV也能产生段错误。
`

2.2 用系统调用向进程发信号

🏷️kill()函数

kill命令是通过调用kill系统调用实现的，kill函数可以给指定pid的进程发送指定的信号，函数原型如下：

NAME
       kill - send signal to a process
	
SYNOPSIS
       #include <sys/types.h>
       #include <signal.h>
       int kill(pid_t pid, int sig);

返回值：成功返回0，错误返回-1。

🏷️raise()函数

kill命令是调用kill函数实现的，kill函数可以给一个指定的进程发送指定的信号。raise函数可以给当前进程发送指定的信号（自己给自己发信号），类似执行kill(getpid(), sig)。

NAME
       raise - send a signal to the caller

SYNOPSIS
       #include <signal.h>
       int raise(int sig);

DESCRIPTION
       The raise() function sends a signal to the calling process or thread.
       In a single-threaded program it is equivalent to:
	      kill(getpid(), sig);

返回值：成功返回0，错误返回-1。

🏷️abort()函数

abort函数的作用是异常终止进程，exit函数的作用是正常终止进程，而abort本质是通过向当前进程发送SIGABRT信号而终止进程的。

[!tip] 使用exit函数终止进程可能会失败，但使用abort函数终止进程总是成功的：

exit 函数：

exit 函数是正常终止进程的方式，它允许进程执行一些清理工作，例如关闭文件、刷新缓冲区、释放堆栈资源等，然后返回到操作系统。
如果 exit 函数失败，通常是因为在清理过程中发生了错误，可能导致进程无法正常终止。这可能包括未处理的异常、内存损坏或其他问题。

abort 函数：

abort 函数用于立即终止进程，不会执行任何清理工作。它是一种非正常的进程终止方式，类似于向进程发送一个中断信号。
由于 abort 不执行清理工作，它通常能够成功地终止进程，即使进程处于异常状态。

因此，如果在使用 exit 函数时出现失败，可能是因为清理过程中发生了问题，而 abort 函数则更加直接和强制，因此通常能够成功终止进程。然而，abort 的使用应慎重，因为它不允许进程进行任何善后工作。最好的做法是尽可能使用 exit 函数。

2.3 由软件产生信号

SIGPIPE是一种由软件条件产生的信号，在进程间通信 #匿名管道的读写规则中已经介绍过了，如果所有管道读端对应的文件描述符被关闭，则write操作会产生信号SIGPIPE，进而可能导致正在write的进程退出。

本节主要介绍 alarm函数 和 SIGALRM 信号。

调用alarm函数可以设定一个闹钟,也就是告诉内核在seconds秒之后给当前进程发SIGALRM信号, 该信号的默认处理动作是终止当前进程。函数原型如下：

#include <unistd.h>
unsigned int alarm(unsigned int seconds);

alarm函数的返回值：

若调用alarm函数前，进程已经设置了闹钟，则返回上一个闹钟时间的剩余时间，并且本次闹钟的设置会覆盖上一次闹钟的设置。
如果调用alarm函数前，进程没有设置闹钟，则返回值为0。

下面这个程序的作用是1秒钟之内不停地数数，1秒钟到了就被SIGALRM信号终止，我们用handler函数自定义捕捉了 SIGALRM 信号：

#include <stdio.h>
#include <stdlib.h>
#include <signal.h>
#include <unistd.h>

int count = 0;
void handler(int signo)
{
	printf("get a signal: %d\n", signo);
	printf("count: %d\n", count);
	exit(1);
}
int main()
{
	signal(SIGALRM, handler);
	alarm(1);
	while (1)
	{
		count++;
	}
	return 0;
}

请添加图片描述

2.4 由硬件产生信号

当我们程序当中出现类似于除0、野指针、越界之类的错误时，进程会崩溃，本质上是因为进程在运行过程中收到了操作系统发来的信号进而被终止。

硬件异常被硬件以某种方式被硬件检测到并通知内核，然后内核向当前进程发送适当的信号。例如当前进程执行了除以0的指令，CPU的运算单元会产生异常，操作系统发现CPU内的某个状态标志位被置位，而这次置位就是因为出现了某种除0错误而导致的，内核将这个异常解释为SIGFPE信号（浮点数异常）发送给进程。再比如当前进程访问了非法内存地址，MMU（内存管理单元）会产生异常，内核将这个异常解释为SIGSEGV信号发送给进程。

下面的流程图解释了操作系统如何在程序运行过程中处理硬件异常并向进程发送信号：

_宁清

关注

27
点赞
踩
24

收藏

觉得还不错? 一键收藏
打赏
4
评论
【Linux】进程信号概念 | 核心转储 | 信号的产生

产生信号的方式可以有很多（譬如：由操作系统、其他进程，或者进程自身产生），但是向目标进程发送信号只能由操作系统发送，因为操作系统是进程的管理者，发送信号的本质是修改PCB中的信号位图。
复制链接

扫一扫