linux的内核进程/线程

最新推荐文章于 2024-08-14 20:07:58 发布

define_us

最新推荐文章于 2024-08-14 20:07:58 发布

阅读量1.5k

点赞数

分类专栏：操作系统和编译器

本文链接：https://blog.csdn.net/define_us/article/details/83658891

版权

操作系统和编译器专栏收录该内容

42 篇文章 1 订阅

订阅专栏

linux启动后，内核自动执行如下线程(进程）内核其实是不区分进程和线程的。

idle进程：PID = 0。系统的启动进程。启动后负责进程的调度。

init进程：PID = 1。由IDLE进程创建，首先负责系统的启动。负责启动所有其他进程。启动后变成守护进程，用于监视其他所有进程和用户进程的启动。所有用户进程的父亲进程或者父亲进程。

kthreadd：PID = 2。这种内核线程只有一个。它是由idle进程启动的。它的作用是管理调度其它的内核线程。所有除了上述两个外的内核进程的祖先进程或父进程。它在内核初始化的时候被创建，会循环运行一个叫做kthreadd的函数，该函数的作用是运行kthread_create_list全局链表中维护的kthread。可以调用kthread_create创建一个kthread，它会被加入到kthread_create_list链表中，同时kthread_create会weak up kthreadd_task。kthreadd在执行kthread会调用老的接口——kernel_thread运行一个名叫“kthread”的内核线程去运行创建的kthread，被执行过的kthread会从kthread_create_list链表中删除，并且kthreadd会不断调用scheduler 让出CPU。这个线程不能关闭。

上面两个进程的其启动代码如下

//start_kernel函数将在最后调用该函数
//调用完成后，内核就起来了
//该函数启动了两个内核线程kernel_init和kthreadd
static noinline void __ref rest_init(void)
{
	struct task_struct *tsk;
	int pid;
	rcu_scheduler_starting();
	/*
	 * We need to spawn init first so that it obtains pid 1, however
	 * the init task will end up wanting to create kthreads, which, if
	 * we schedule it before we create kthreadd, will OOPS.
	 * 意思是我们虽然先创建了init进程，但是不能现在就让idle进程进行schedule。因为kthreadd进程还没起来。
	 */
	pid = kernel_thread(kernel_init, NULL, CLONE_FS);
	/*
	 * Pin init on the boot CPU. Task migration is not properly working
	 * until sched_init_smp() has been run. It will set the allowed
	 * CPUs for init to the non isolated CPUs.
	 */
	rcu_read_lock();
	tsk = find_task_by_pid_ns(pid, &init_pid_ns);
	set_cpus_allowed_ptr(tsk, cpumask_of(smp_processor_id()));
	rcu_read_unlock();
	numa_default_policy();
	pid = kernel_thread(kthreadd, NULL, CLONE_FS | CLONE_FILES);
	rcu_read_lock();
	kthreadd_task = find_task_by_pid_ns(pid, &init_pid_ns);
	rcu_read_unlock();
	/*
	 * Enable might_sleep() and smp_processor_id() checks.
	 * They cannot be enabled earlier because with CONFIG_PREEMPT=y
	 * kernel_thread() would trigger might_sleep() splats. With
	 * CONFIG_PREEMPT_VOLUNTARY=y the init task might have scheduled
	 * already, but it's stuck on the kthreadd_done completion.
	 */
	system_state = SYSTEM_SCHEDULING;
	complete(&kthreadd_done);
	/*
	 * The boot idle thread must execute schedule()
	 * at least once to get things moving:
	 * idle线程将执行schedule，负责这两个线程都不会执行
	 */
	schedule_preempt_disabled();
	/* Call into cpu_idle with preempt disabled */
	/* 将CPU置于空闲状态，启动完成*/
	cpu_startup_entry(CPUHP_ONLINE);
}

代码链接
https://code.woboq.org/linux/linux/kernel/kthread.c.html#kthreadd

int kthreadd(void *unused)
{
    struct task_struct *tsk = current;

    /* Setup a clean context for our children to inherit. */
    set_task_comm(tsk, "kthreadd");
    ignore_signals(tsk);
    set_cpus_allowed_ptr(tsk, cpu_all_mask);            //  允许kthreadd在任意CPU上运行
    set_mems_allowed(node_states[N_MEMORY]);

    current->flags |= PF_NOFREEZE;

    for (;;) {
            /*  首先将线程状态设置为 TASK_INTERRUPTIBLE, 如果当前
            没有要创建的线程则主动放弃 CPU 完成调度.此进程变为阻塞态*/
            set_current_state(TASK_INTERRUPTIBLE);
            if (list_empty(&kthread_create_list))  //  没有需要创建的内核线程
                    schedule();                                 //   什么也不做, 执行一次调度, 让出CPU

             /*  运行到此表示 kthreadd 线程被唤醒(就是我们当前)
            设置进程运行状态为 TASK_RUNNING */
            __set_current_state(TASK_RUNNING);

            spin_lock(&kthread_create_lock);                    //  加锁,
            while (!list_empty(&kthread_create_list)) {
                    struct kthread_create_info *create;

                    /*  从链表中取得 kthread_create_info 结构的地址，在上文中已经完成插入操作(将
                    kthread_create_info 结构中的 list 成员加到链表中，此时根据成员 list 的偏移
                    获得 create)  */
                    create = list_entry(kthread_create_list.next,
                                        struct kthread_create_info, list);

                    /* 完成穿件后将其从链表中删除 */
                    list_del_init(&create->list);

                    /* 完成真正线程的创建 */
                    spin_unlock(&kthread_create_lock);  

                    create_kthread(create);

                    spin_lock(&kthread_create_lock);
            }
            spin_unlock(&kthread_create_lock);
    }

    return 0;

migration：每个处理器核对应一个migration内核线程，主要作用是作为相应CPU核的迁移进程，用来执行进程迁移操作，内核中的函数是migration_thread()。属于2.6内核的负载平衡系统，该进程在系统启动时自动加载（每个 cpu 一个），并将自己设为 SCHED_FIFO 的实时进程，然后检查 runqueue::migration_queue 中是否有请求等待处理，如果没有，就在 TASK_INTERRUPTIBLE 中休眠，直至被唤醒后再次检查。migration_queue仅在set_cpu_allowed() 中添加，当进程（比如通过 APM 关闭某 CPU 时）调用set_cpu_allowed()改变当前可用 cpu，从而使某进程不适于继续在当前 cpu 上运行时，就会构造一个迁移请求数据结构 migration_req_t，将其植入进程所在 cpu 就绪队列的migration_queue 中，然后唤醒该就绪队列的迁移 daemon（记录在runqueue::migration_thread 属性中），将该进程迁移到合适的cpu上去在目前的实现中，目的 cpu 的选择和负载无关，而是"any_online_cpu(req->task->cpus_allowed)"，也就是按 CPU 编号顺序的第一个 allowed 的CPU。所以，和 load_balance() 与调度器、负载平衡策略密切相关不同，migration_thread() 应该说仅仅是一个 CPU 绑定以及 CPU 电源管理等功能的一个接口。这个线程是调度系统的重要组成部分，也不能被关闭。

watchdog每个处理器核对应一个watchdog 内核线程，watchdog用于监视系统的运行，在系统出现故障时自动重新启动系统，包括一个内核 watchdog module 和一个用户空间的 watchdog 程序。在Linux 内核下, watchdog的基本工作原理是：当watchdog启动后(即/dev/watchdog设备被打开后)，如果在某一设定的时间间隔（1分钟）内/dev/watchdog没有被执行写操作, 硬件watchdog电路或软件定时器就会重新启动系统，每次写操作会导致重新设定定时器。/dev/watchdog是一个主设备号为10，从设备号130的字符设备节点。 Linux内核不仅为各种不同类型的watchdog硬件电路提供了驱动，还提供了一个基于定时器的纯软件watchdog驱动。如果不需要这种故障处理机制，或者有相应的替代方案，可以在menuconfig的
Device Drivers —>
Watchdog Timer Support
处取消watchdog功能。

events每个处理器核对应一个 events内核线程。用来处理内核事件很多软硬件事件(比如断电，文件变更)被转换为events，并分发给对相应事件感兴趣的线程进行响应。用来处理内核事件的重要线程，不能被去掉

kblockd每个处理器核对应一个 kblockd 内核线程。用于管理系统的块设备，它会周期地激活系统内的块设备驱动。如果拥有块设备，那么这些线程就不能被去掉，要是想去掉，需要在.config中直接将CONFIG_BLOCK设成n，同时在menuconfig中取消
Device Drivers —>
Block devices

khelper这种内核线程只有一个，主要作用是指定用户空间的程序路径和环境变量, 最终运行指定的user space的程序，属于关键线程，不能关闭

pdflush这种内核线程共有两个，线程名都是pdflush，主要作用是回写内存中的脏页，回收脏页占据的空间。由于页高速缓存的缓存作用，写操作实际上会被延迟。当页高速缓存中的数据比后台存储的数据更新时，那么该数据就被称做脏数据。在内存中累积起来的脏页最终必须被写回。在以下两种情况发生时，脏页被写回：
1.当空闲内存低于一个特定的阈值时，内核必须将脏页写回磁盘，以便释放内存。
2.当脏页在内存中驻留时间超过一个特定的阈值时，内核必须将超时的脏页写回磁盘，以确保脏页不会无限期地驻留在内存中。
对于第一个目标，pdflush线程在系统中的空闲内存低于一个特定的阈值时，将脏页刷新回磁盘。该后台回写例程的目的在于在可用物理　内存过低时，释放脏页以重新获得内存。特定的内存阈值可以通过dirty_background_ratiosysctl系统调用设置。当空闲内存比阈值：dirty_ background_ratio还低时，内核便会调用函数wakeup_bdflush()唤醒一个pdflush线程，随后pdflush线程进一步调用函数background_writeout()开始将脏页写回磁盘。函数background_ writeout()需要一个长整型参数，该参数指定试图写回的页面数目。函数background_writeout()会连续地写出数据，直到满足以下两个条件：

已经有指定的最小数目的页被写出到磁盘。
空闲内存数已经回升，超过了阈值dirty_background_ratio。
上述条件确保了pdflush操作可以减轻系统中内存不足的压力。回写操作不会在达到这两个条件前停止，除非pdflush写回了所有的脏页，没有剩下的脏页可再被写回了。
对于第二个目标，pdflush后台例程会被周期性唤醒（和空闲内存是否过低无关），将那些在内存中驻留时间过长的脏页写出，确保内存中不会有长期存在的脏页。如果系统发生崩溃，由于内存处于混乱之中，所以那些在内存中还没来得及写回磁盘的脏页就会丢失，所以周期性同步页高速缓存和磁盘非常重要。在系统启动时，内核初始化一个定时器，让它周期地唤醒pdflush线程，随后使其运行函数 wb_kupdate()。该函数将把所有驻留时间超过百分之dirty_expire_centisecs秒的脏页写回。然后定时器将再次被初始化为百分之dirty_expire_ centisecs秒后唤醒pdflush线程。总而言之，pdflush线程周期地被唤醒并且把超过特定期限的脏页写回磁盘。
系统管理员可以在/proc/sys/vm中设置回写相关的参数，也可以通过sysctl系统调用设置它们，cat /proc/sys/vm/dirty_background_ratio
属于核心的内存管理线程，这个线程也不能被关闭

kswapd0这种内核线程只有一个，主要作用是用来回收内存。在kswapd中，有2个阀值，pages_hige和pages_low。当空闲内存页的数量低于pages_low的时候，kswapd进程就会扫描内存并且每次释放出32个 free pages，直到freepage的数量到达pages_high。具体回收内存有如下原则：
1. 如果页未经更改就将该页放入空闲队列；
2. 如果页已经更改并且是可备份回文件系统的，就理解将内存页的内容写回磁盘；
3. 如果页已经更改但是没有任何磁盘上的备份，就将其写入swap分区。
同样，属于核心的内存管理线程，这个线程也不能被关闭

nfsiod这种内核线程只有一个，主要作用是为nfs提供高效的缓冲机制,从而改善nfs文件系统的性能，如果不需nfs，可以取消这一线程，取消这一线程的方法为menuconfig中取消
File systems —>
Network File Systems

rpciod每个处理器核对应一个rpciod内核线程,主要作用是作为远过程调用服务的守护进程，用于从客户端启动I/O服务，通常启动NFS服务时要用到它，想要关闭它，需要在.config中把CONFIG_SUNRPC， CONFIG_SUNRPC_GSS， CONFIG_SUNRPC_XPRT_RDMA的值设成n

kpsmoused这种内核线程只有一个，主要作用是支持ps/2接口的鼠标驱动。如要没有鼠标，可以取消，取消方法是menuconfig中取消
DeviceDrivers —>
Input device support
Mice