操作系统基础知识

CPU和内存

如果我们简化一下, CPU和内存其实特别简单,内存就是一个个的小格子, 每个格子都有一个编号, 格子中的数据可以被CPU所读写。

CPU 内部的构造超级复杂, 但我们这次只关注两个东西:

一是运算器,可以做各种运算, 但是有个限制,这个运算器不能直接操作内存进行运算, 他在运算时使用的是内部的数据格子(学名叫寄存器), 为了区分开, 我把他们叫做R1,R2,R3,R4,假设只有这么4个, 统称Rx。 

CPU必须把数据装载到寄存器中才能运算。

内存只是一个个可以读写的格子, CPU简单到只能做4件事:

(1) 从内存的某个格子中读取数据放入自己内部的寄存器Rx

(2) 把Rx的数据写入内存的某个格子中(会把原有数据覆盖)

(3) 进行数学运算和逻辑运算

(4) 根据条件进行跳转

还有一个问题,CPU在运行的时候,从哪里取获得那些指令?

估计你已经想到了, 对,就是内存 ,指令也需要在内存中才能够被CPU访问到, CPU从内存读到指令以后,会进行分析(译码) , 看看这个指令是干什么的, 然后再进行运算。

所以我们的内存小格子中不仅仅存放的是数据,还存放着至关重要的程序指令! 我们需要告诉CPU第一条指令在什么地方, 然后CPU就可以疯狂的开始运行了:

这些指令在内存中肯定不是我们看到的自然语言, 而是二进制的表示。

那内存的数据又是从哪里来的?  肯定是硬盘了, 我们写好的程序会放在硬盘上, 在运行的时候才调入内存。 

机器语言

我听说计算机刚发明那会儿, 人们就是拨弄各种开关、操作各种电缆把程序给“输入”到计算机中去。

这所谓的程序, 可真的是0110000111这样的二进制,   我真是佩服这些程序的设计者和操作员们, 太不可思议了。

这种原始的方式也决定了难于诞生超大型程序, 因为太复杂了,远远能过人脑能思考的极限。

后来人们做了点改进, 把程序打到穿孔纸带上, 让机器直接读穿孔纸带, 这下子就好多了, 终于不用拨弄开关了。

但程序的本质还是没有变化, 依然是在使用二进制来编程。

如果这个样子一直持续下去, 估计这个世界上的程序员会少的可怜: 编程的门槛太高了。

比如说你的脑子里得记住这样的指令

0000 表示从内存中往CPU寄存器装载数据

0001 表示把CPU寄存器的值写入内存

0010 表示把两个寄存器的值相加

你还得记住每个寄存器的二进制表示:

1000 表示寄存器A

1001 表示寄存器B

综合起来就像这样:

0000 1000  000000000001  它的意思是说, 把编号为1的内存中的值装载到寄存器A当中

0010 1000  1001  的意思是把寄存器A和寄存器B的值加起来,放到寄存器A中。

整天生活在这样的世界里, 满脑子都是0和1, 要是我估计就抑郁了。

汇编语言

 

既然二进制这么难记, 人们很快就想到:  能不能给这些指令起个好听的名称呢?

 

0000  : LOAD

0001   :   STORE

0010   :   ADD

 

寄存器也是一样的:

1000 : AX

1001 : BX

 

这下读来容易多了:

ADD AX BX

 

人们给这些帮助记忆的助记符起了个名字: 汇编语言。

 

但是计算机是无法执行汇编语言的,  因为计算机这个笨家伙只认二进制,  所以还得翻译一下才行。

 

于是我们家族的一个重要成员: 汇编器 隆重登场了, 他专门负责汇编语言写的程序翻译为机器语言, 这个翻译的过程比较简单,几乎就是一一对应的关系。

 

汇编语言解放了人们的部分脑力, 可以把更多的精力集中在程序逻辑上了。 越来越多的人学会了使用汇编来编程,  写出了很多伟大的软件。

 

汇编的优点是贴近机器, 运行效率极高, 但是缺点也是太贴近机器, 直接操作内存和CPU寄存器, 不能结构化编程, 每次函数调用还得把手动把栈帧给管理好,  这对于一般的程序员来讲太难了!

 

我的祖先们把穿孔纸带和汇编语言都称为低级语言, 把这个时代称为机器语言编程时代。

 

生活在这个时代的祖先们是很幸福的, 因为翻译工作十分简单。 

 

但是用汇编写程序的人还是太少, 找我们做翻译的也很少, 翻译家族也只是温饱而已。

高级语言

人类的欲望是无止境的, 他们一直在探索用一种更高级的语言来写程序的可能性, 这种高级语言应该面向人类编写和阅读, 而不是面向机器去执行。

人类想要的高级语言是这样的:

声明各种类型的变量来表示数据,而不是用寄存器。  例如 :

int value = 100

能使用复杂的表达式来告诉电脑自己的意图:  

salary = 1000 + salary * 12

可以用各种控制语句来控制流程:

 if .. else ,  while(....) ....

还可以定义函数来封装、复用一段业务逻辑:

int get_primes(int max) {.....}

高级语言和低级语言之间存在着巨大的鸿沟, 怎么把高级语言翻译成可以执行的机器语言是个非常难的问题!

人类在黑暗中摸索了很久,这才迎来一丝光明, 1957年,第一个高级语言的编译器才在IBM704的机器上运行成功。 更重要的是乔姆斯基对自然语言结构的研究, 把语言文法做了分类,有了0型文法,1型文法, 2型文法,3型文法, 这一下子给我们的翻译工作奠定了理论基础。

由于翻译的复杂性, 除了汇编器之外, 很多新成员加入进来, 我们的家族迅速发展壮大, 甚至形成了一个专门翻译的流水线,  这个流水线的家族成员分工合作, 把高级语言翻译成低级语言。

争吵


阿甘的建议被采纳了, 其实这几乎是唯一的解决问题方式了, 但是由谁来管理引起了激烈争吵。

系统党委有一波人坚持要在用户空间实现线程, 换通俗的话说就是让那些进程在自个儿内部去管理线程, 他们的理由也很充分: 
你们自己实现了线程,可以自己定制自己的调度算法,多灵活啊;

所有的线程切换都在进程内完成, 不用请求我们操作系统内核来处理,效率多高啊;

况且你们可以在那些内核不支持线程的操作系统中运行, 移植性多好啊。

这里写图片描述

我们清楚的知道这是内核想做甩手掌柜, 因为他们选择性的忽略了一个致命的问题: 如果由我们实现线程,则操作系统内核还是认为我们只是一个进程而已,对里边的线程一无所知,对进程的调度还是以进程为最小单位。

一旦出现阻塞的系统调用,不仅仅阻塞那个线程,还会阻塞整个进程!

例如文字处理器那个进程, 如果负责定时保存的线程发起了IO调用, 内核会认为,这是由进程发起的,于是就把整个进程给挂起了, 虽然和用户交互的进程还是可以运行,也被强制的随着进程挂起来,不响应了, 这多么悲催啊, 又回到了老问题上去了。

所以我们坚决不能答应, 我们则一致的要求:在内核中实现线程 ! 内核需要知道进程中线程的存在,内核需要维护线程表,并且负责调度!

这里写图片描述

党委的人傲慢的说: 你们不嫌累吗, 每次创建一个线程都得通过我们内核, 多慢啊。

我们说:只有这样,一个线程的IO系统调用才不会阻塞我们整个进程啊, 你们完全可以选择同一个进程的另外一个线程去执行。

双发僵持不下,最后只好妥协, 那就是:混合着实现吧。

用户空间的进程可以创建线程(用户线程), 内核也会创建线程(内核线程), 用户线程映射到内核线程上。

这里写图片描述

问题基本解决了,但也带来了新的问题,我们的系统也变的越来越复杂, 尤其是进程之间的通信和线程之间的同步, 会那些程序员们带来无穷无尽的烦恼, 这是后话了, 有机会下次再说吧。

注: 本文的插图来源于《现代操作系统》和《操作系统概念》(恐龙书)这两本书, 我重画了一下。 对操作系统感兴趣的同学可以看看这两本书。

(完)


一个线程的一生

  我是一个线程,我一出生就被编了个号: 0×3704,然后被领到一个昏暗的屋子里, 这里我发现了很多和我一模一样的同伴。

  我身边的同伴0×6900 待的时间比较长, 他带着沧桑的口气对我说:

  “我们线程的宿命就是处理包裹。把包裹处理完以后还得马上回到这里,否则可能永远回不来了。”

  我一脸懵懂,包裹,什么包裹?

  “不要着急,马上你就会明白了, 我们这里是不养闲人的。”

  果然,没多久,屋子的门开了, 一个面貌凶恶的家伙吼道:

  “0×3704 ,出来!”

  我一出来就被塞了一个沉甸甸的包裹,上面还有附带着一个写满了操作步骤的纸。

  “快去,把这个包裹处理了。”

  “去哪儿处理?”

  “跟着指示走, 先到就绪车间”

  果然,地上有指示箭头,跟着它来到了一间明亮的大屋子,这里已经有不少线程了, 大家都很紧张,好像时刻准备着往前冲。

  我刚一进来,就听见广播说:“0×3704,进入车间”

  我赶紧往前走, 身后很多人议论说:

  ”他太幸运了, 刚进入就绪状态就能运行”

  “是不是有关系?”

  “不是,你看人家的优先级多高啊, 唉~”

  前边就是车间, 这里简直是太美了, 怪不得老线程总是唠叨着说:要是能一直待在这里就好了。

  这里空间大,视野好,空气清新,鸟语花香,还有很多从来没见过的人,像服务员一样等着为我服务。

  他们也都有编号, 更重要的是每个人还有个标签,上面写着:硬盘,数据库,内存,网卡...

  我现在理解不了,看看操作步骤吧:

  第一步:从包裹中取出参数

  打开包裹, 里边有个 HttpRequest 对象,可以取到 userName, password 两个参数。

  第二步:执行登录操作

  奥,原来是有人要登录啊,我把 userName/password 交给数据库服务员,他拿着数据, 慢腾腾的走了。

  他怎么这么慢?不过我是不是正好可以在车间里多待一会儿? 反正也没法执行第三步。

  就在这时,车间里的广播响了: 

  “0×3704,我是 CPU,记住你正在执行的步骤,马上带包裹离开”

  我慢腾腾的开始收拾。。。

  “快点, 别的线程马上就要进来了”

  离开这个车间, 又来到一个大屋子,这里很多线程慢腾腾的在喝茶,打牌。

  “哥们,你们没事干了?”

  “你新来的吧,你不知道我在等数据库服务员给我数据啊,据说他们比我们慢好几十万倍, 在这里好好歇吧”

  “啊? 这么慢? 我这里有人在登录系统, 能等这么长时间吗”

  “放心,你没听说过人间一天,CPU 一年吗, 我们这里是用纳秒,毫秒计时的,人间等待一秒,相当于我们好几天呢,来的及”

  干脆睡一会吧 , 不知道过了多久 ,大喇叭又开始广播了:

  “0×3704, 你的数据来了,快去执行”

  我转身就往 CPU 车间跑,发现这里的们只出不进!

  后面传来阵阵哄笑声:

  “果然是新人,不知道还得去就绪车间等”

  于是赶紧到就绪车间,这次没有那么好运了,等了好久才被再次叫进 CPU 车间。

  在等待的时候, 我听见有人小声议论:

  “听说了吗,最近有个线程被 kill 掉了”

  “为啥啊?”

  “这家伙赖在 CPU 车间不走,把 CPU 利用率一直搞成 100%,后来就被 kill 掉了”

  “Kill 掉以后弄哪儿去了”

  “可能被垃圾回收了吧”

  我心里打了个寒噤 , 赶紧接着处理,收下的动作块多了,第二步登录成功了。

  第三步:构建登录成功后的主页

  这一步有点费时间, 因为有很多 HTML 需要处理, 不知道代码谁写的,处理起来很烦人。

  我正在紧张的制作 HTM 呢, CPU 有开始叫了:

  “0×3704,我是 CPU,记住你正在执行的步骤,马上带包裹离开”

  “为啥啊”

  “每个线程只能在 CPU 上运行一段时间,到了时间就得让别人用了,你去就绪车间待着, 等着叫你吧”

  就这样, 我一直在“就绪-运行”这两个状态,不知道轮转了多少次,终于安装步骤清单把工作做完了。

  最后顺利的把包含 HTML 的包裹发了回去。

  至于登录以后干什么事儿 ,我就不管了。

  马上就要回到我那昏暗的房间了,真有点舍不得这里。

  不过相对于有些线程, 我还是幸运的, 他们运行完以后就彻底的销毁了,而我还活着!

  回到了小黑屋, 老线程0×6900 问:

  “怎么样?第一天有什么感觉?”

  “我们的世界规则很复杂,首先你不知道什么时候会被挑中执行;第二,在执行的过程中随时可能被打断,让出 CPU 车间;第三,一旦出现硬盘,数据库这样耗时的操作也得让出 CPU,去等待;第四,就是数据来了,你也不一定马上执行,还得等着 CPU 挑选”

  “小伙子理解的不错啊”

  “我不明白为什么很多线程都执行完就死了, 为什么咱们还活着?”

  “你还不知道,长生不老是我们的特权,我们这里有个正式的名称,叫做线程池!”

  平淡的日子就这么一天天过去,作为一个线程,我每天的生活都是取包裹,处理包裹,然后回到我们昏暗的家:线程池。

  有一天我回来的时候,听到有个兄弟说,今天要好好休息下,明天就是最疯狂的一天。

  我看了一眼日历,明天是 11 月 11 号。

  果然,零点刚过,不知道那些人类怎么了,疯狂的投递包裹,为了应付蜂拥而至的海量包裹,线程池里没有一个人能闲下来,全部出去处理包裹,CPU 车间利用率超高,硬盘在嗡嗡转,网卡疯狂的闪,即便如此,还是处理不完,堆积如山。

  我们也没有办法,实在是太多太多了,这些包裹中大部分都是浏览页面,下订单,买,买,买。

  不知道过了多久,包裹山终于慢慢的消失了。

  终于能够喘口气, 我想我永远都不会忘记这一天。

  通过这个事件,我明白了我所处的世界:这是一个电子商务的网站!

  我每天的工作就是处理用户的登录,浏览, 购物车,下单,付款。

  我问线程池的元老0×6900:“我们要工作到什么时候?”

  “要一直等到系统重启的那一刻”,0×6900 说。

  “那你经历过系统重启吗?”

  “怎么可能?系统重启就是我们的死亡时刻, 也就是世界末日,一旦重启,整个线程池全部销毁,时间和空间全部消失,一切从头再来”

  “那什么时候会重启?”

  “这就不好说了,好好享受眼前的生活吧…..”

  其实生活丰富多彩,我最喜欢的包裹是上传图片,由于网络慢,所以能在就绪车间,CPU 车间待很长很长时间,可以认识很多好玩的线程。

  比如说上次认识了 memecached 线程,他给我说通过他缓存了很多的用户数据, 还是分布式的! 很多机器上都有!

  我说怪不得后来的登录操作快了那么多, 原来是不再从数据库取数据了你那里就有啊,哎,对了,你是分布式的,你去过别的机器没有?

  他说怎么可能,我每次也只能通过网络往那个机器发送一个 GET, PUT 命令才存取数据而已,别的一概不知。

  再比如说上次在等待的时候遇到了数据库连接的线程,我才知道它他那里也是一个连接池,和我们线程池几乎一模一样。

  他说有些包裹太变态了,竟然查看一年的订单数据,简直把我累死了。

  我说拉倒吧你,你那是纯数据,你把数据传给我以后,我还得组装成 HTML,工作量不知道比你大多少倍。

  他说一定你要和 memecached 搞好关系,直接从他那儿拿数据,尽量少直接调用数据库,我们 JDBC connection 也能活的轻松点。

  我说好啊好啊,关键是你得提前把数据搞到缓存啊,要不然我先问一遍缓存,没有数据,我这不还得找你吗?

  生活就是这样,如果你自己不找点乐子,还有什么意思?

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值