Linux - 线程基础概念

理解线程,必须先理解进程!!
什么是进程(PCB)
  • 进程pid - 进程有很多,需要有一个区分和标识
  • 内存指针 - 进程运行时需要依赖代码和数据,所以有一个内存指针指向进程所需要的代码和数据,指向虚拟地址空间
  • 进程有很多,而CPU只有几个,那么进程就需要调度,为了实现调度,进程还有以下的信息,为调度做辅助
    • 进程的状态(R,S,T,t,X,Z)
    • 上下文信息 - 记录进程进行到哪里,从哪里开始
    • 优先级
    • 记账信息 - 要统计进程在CPU上执行的时间和多少指令,是进程什么时候从CPU离开的依据
  • files指针 - 指向一个结构体,内含 fd_array(文件描述符表)
  • 未决信号集/信号屏蔽字
线程解决的问题

  • 解决“一心多用”问题 - 能够几遍只有一个CPU,也可以同时做多件事情,并且不受影响
  • 充分利用多核CPU资源 - 让多个CPU并发的执行任务中的一部分,从而缩短整体的运行时间

什么是线程

  • 线程是能够运行和调度的最小单位
  • 是进程实际运作的单位
  • 是进程中单一顺序的执行流(例如,一个进程中的main函数,是由线程执行起来的)
  • 一个进程可以并发执行多个线程

进程和线程

  • 进程/任务是资源分配和管理的基本单位
  • 线程/轻量级进程 (这个叫法只针对于Linux而言,别的OS下不一定是,因为在Linux上) 是程序调度和执行的基本单位
  • 线程共享进程数据,但也拥有自己的一部分信息
线程ID : 线程的唯一标识符
一组寄存器 :线程的上下文信息
栈 :每个线程都维护者自己的一个栈
errno
信号屏蔽字
调度优先级
  • 我们平常说的pid(getpid() 得到的),其实是这个进程的唯一标识符,也是这个进程中主线程的唯一标识符

主线程是创建进程时产生的第一个线程,也就是main函数创建的线程。

在Linux上
线程是由一个PCB描述的,进程是由一组PCB描述的。
在操作系统内核中,并不区分进程线程,只管理PCB,进程和线程的概念是在用户层上的。
我们可以采用进程的方式,模拟实现线程,将操作统一在一起。

//进程和task_struct 形成 1:N 的关系
struct task_struct
{
    ...
    pid_t pid; //线程id,每个PCB的id,唯一
    pid_t tgid; //线程组id ,我们使用gitpid() 获得的其实是t_gid
    ...
    struct task_struct* group_leader; //指向组长的PCB
    ...
    struct list_head thread_group; //在进程的任何一个线程中都可以通过这个链表找到其他的线程
    ...
};
主线程的pid和tgid是相同的,所以进程的pid就是组长pcb的id

一进程的多个线程共享

  • 同一虚拟地址空间(重要!) : 数据段和代码段都是共享的,如果定义了一个函数,那么这个进程中的所有线程都可以调用,如果定义了一个全局变量,这个全局变量在各个线程中都可以访问到,如果在堆上申请了一段空间,所有的线程也都可以对这个数据进行操作
  • 文件描述符表(重要!):一个线程修改了一个文件,其他的线程访问到的文件也都改变
  • 共用信号处理机制中的未决信号机
  • 信号处理方式
  • 当前工作目录
  • 用户id和组id
  • 未决信号集 :只要进程收到了信号,也就意味着所有线程收到了信号
共享同一个虚拟地址空间,本质上其实是共用同一个页表

线程之间独自拥有

  • 栈(重要!) :每个线程各自有一个调用栈,线程也可以访问其他线程栈上的信息
  • 上下文信息(一组寄存器)(重要!) :为了执行调度的正确性,产生上下文信息
  • 线程id
  • errno :函数出错就会在errno中设置错误码,我们调用perror时会自动解析错误码
  • 信号屏蔽字
  • 优先级调度
线程的优点(与进程对比)

  • 创建一个新的线程的占用资源小于进程
创建一个进程,我们需要给他分配虚拟地址空间,这个空间占用了一部分资源,比如我们的堆默认为8M,耗费的时间当然比较大
创建一个线程,线程的很对区域都是和其他线程共享的,所以节约了很多的资源,增快了效率,销毁也比较快
  • 线程之间的切换代价很小
两进程之间的切换,因为占用的空间和资源比较多,所以切换效率比较低
两线程的切换,只用切换一小部分数据,效率较高
  • 线程之间共享数据比较容易
线程可以看到所有自己线程组中线程的信息
进程之间需要管道、消息队列...
  • 能够成分利用多处理器的可并行数量
比如我们现在是4核CPU,现在需要不停歇的进行CPU的运算操作,当前用四个线程运算操作,CPU占用率可达到400%(Linux下),可见充分利用了硬件资源

线程的缺点

  • 缺乏访问控制,这导致线程使用起来安全性比较低
线程之间不独立,很有可能访问到其他线程的数据,使程序发生未定义行为
一个线程异常终止,很可能导致所有线程异常终止
  • 编程难度大大增加
编写和调试一个多线程程序的难度比单线程的难度困难的多
多线程公用同一个公共资源,这个资源就成为了临界资源,访问临界资源的代码就是临界区,多进程访问临界资源很可能出现数据错乱的情况。
  • 线程稳定性
如我们是4核CPU,现在有8个线程,期中4个线程在执行任务的时候,其他4个线程就在等待,也会和正在执行任务的线程竞争,消耗资源,而且很容易导致整个进程都挂掉
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值