CPU和内存
如果我们简化一下, CPU和内存其实特别简单,内存就是一个个的小格子, 每个格子都有一个编号, 格子中的数据可以被CPU所读写。
CPU 内部的构造超级复杂, 但我们这次只关注两个东西:
一是运算器,可以做各种运算, 但是有个限制,这个运算器不能直接操作内存进行运算, 他在运算时使用的是内部的数据格子(学名叫寄存器), 为了区分开, 我把他们叫做R1,R2,R3,R4,假设只有这么4个, 统称Rx。
CPU必须把数据装载到寄存器中才能运算。
内存只是一个个可以读写的格子, CPU简单到只能做4件事:
(1) 从内存的某个格子中读取数据放入自己内部的寄存器Rx
(2) 把Rx的数据写入内存的某个格子中(会把原有数据覆盖)
(3) 进行数学运算和逻辑运算
(4) 根据条件进行跳转
还有一个问题,CPU在运行的时候,从哪里取获得那些指令?
估计你已经想到了, 对,就是内存 ,指令也需要在内存中才能够被CPU访问到, CPU从内存读到指令以后,会进行分析(译码) , 看看这个指令是干什么的, 然后再进行运算。
所以我们的内存小格子中不仅仅存放的是数据,还存放着至关重要的程序指令! 我们需要告诉CPU第一条指令在什么地方, 然后CPU就可以疯狂的开始运行了:
这些指令在内存中肯定不是我们看到的自然语言, 而是二进制的表示。
那内存的数据又是从哪里来的? 肯定是硬盘了, 我们写好的程序会放在硬盘上, 在运行的时候才调入内存。
机器语言
我听说计算机刚发明那会儿, 人们就是拨弄各种开关、操作各种电缆把程序给“输入”到计算机中去。
这所谓的程序, 可真的是0110000111这样的二进制, 我真是佩服这些程序的设计者和操作员们, 太不可思议了。
这种原始的方式也决定了难于诞生超大型程序, 因为太复杂了,远远能过人脑能思考的极限。
后来人们做了点改进, 把程序打到穿孔纸带上, 让机器直接读穿孔纸带, 这下子就好多了, 终于不用拨弄开关了。
但程序的本质还是没有变化, 依然是在使用二进制来编程。
如果这个样子一直持续下去, 估计这个世界上的程序员会少的可怜: 编程的门槛太高了。
比如说你的脑子里得记住这样的指令
0000 表示从内存中往CPU寄存器装载数据
0001 表示把CPU寄存器的值写入内存
0010 表示把两个寄存器的值相加
你还得记住每个寄存器的二进制表示:
1000 表示寄存器A
1001 表示寄存器B
综合起来就像这样:
0000 1000 000000000001 它的意思是说, 把编号为1的内存中的值装载到寄存器A当中
0010 1000 1001 的意思是把寄存器A和寄存器B的值加起来,放到寄存器A中。
整天生活在这样的世界里, 满脑子都是0和1, 要是我估计就抑郁了。
汇编语言
既然二进制这么难记, 人们很快就想到: 能不能给这些指令起个好听的名称呢?
0000 : LOAD
0001 : STORE
0010 : ADD
寄存器也是一样的:
1000 : AX
1001 : BX
这下读来容易多了:
ADD AX BX
人们给这些帮助记忆的助记符起了个名字: 汇编语言。
但是计算机是无法执行汇编语言的, 因为计算机这个笨家伙只认二进制, 所以还得翻译一下才行。
于是我们家族的一个重要成员: 汇编器 隆重登场了, 他专门负责汇编语言写的程序翻译为机器语言, 这个翻译的过程比较简单,几乎就是一一对应的关系。
汇编语言解放了人们的部分脑力, 可以把更多的精力集中在程序逻辑上了。 越来越多的人学会了使用汇编来编程, 写出了很多伟大的软件。
汇编的优点是贴近机器, 运行效率极高, 但是缺点也是太贴近机器, 直接操作内存和CPU寄存器, 不能结构化编程, 每次函数调用还得把手动把栈帧给管理好, 这对于一般的程序员来讲太难了!
我的祖先们把穿孔纸带和汇编语言都称为低级语言, 把这个时代称为机器语言编程时代。
生活在这个时代的祖先们是很幸福的, 因为翻译工作十分简单。
但是用汇编写程序的人还是太少, 找我们做翻译的也很少, 翻译家族也只是温饱而已。
高级语言
人类的欲望是无止境的, 他们一直在探索用一种更高级的语言来写程序的可能性, 这种高级语言应该面向人类编写和阅读, 而不是面向机器去执行。
人类想要的高级语言是这样的:
声明各种类型的变量来表示数据,而不是用寄存器。 例如 :
int value = 100
能使用复杂的表达式来告诉电脑自己的意图:
salary = 1000 + salary * 12
可以用各种控制语句来控制流程:
if .. else , while(....) ....
还可以定义函数来封装、复用一段业务逻辑:
int get_primes(int max) {.....}
高级语言和低级语言之间存在着巨大的鸿沟, 怎么把高级语言翻译成可以执行的机器语言是个非常难的问题!
人类在黑暗中摸索了很久,这才迎来一丝光明, 1957年,第一个高级语言的编译器才在IBM704的机器上运行成功。 更重要的是乔姆斯基对自然语言结构的研究, 把语言文法做了分类,有了0型文法,1型文法, 2型文法,3型文法, 这一下子给我们的翻译工作奠定了理论基础。
由于翻译的复杂性, 除了汇编器之外, 很多新成员加入进来, 我们的家族迅速发展壮大, 甚至形成了一个专门翻译的流水线, 这个流水线的家族成员分工合作, 把高级语言翻译成低级语言。
争吵
阿甘的建议被采纳了, 其实这几乎是唯一的解决问题方式了, 但是由谁来管理引起了激烈争吵。
系统党委有一波人坚持要在用户空间实现线程, 换通俗的话说就是让那些进程在自个儿内部去管理线程, 他们的理由也很充分:
你们自己实现了线程,可以自己定制自己的调度算法,多灵活啊;
所有的线程切换都在进程内完成, 不用请求我们操作系统内核来处理,效率多高啊;
况且你们可以在那些内核不支持线程的操作系统中运行, 移植性多好啊。
我们清楚的知道这是内核想做甩手掌柜, 因为他们选择性的忽略了一个致命的问题: 如果由我们实现线程,则操作系统内核还是认为我们只是一个进程而已,对里边的线程一无所知,对进程的调度还是以进程为最小单位。
一旦出现阻塞的系统调用,不仅仅阻塞那个线程,还会阻塞整个进程!
例如文字处理器那个进程, 如果负责定时保存的线程发起了IO调用, 内核会认为,这是由进程发起的,于是就把整个进程给挂起了, 虽然和用户交互的进程还是可以运行,也被强制的随着进程挂起来,不响应了, 这多么悲催啊, 又回到了老问题上去了。
所以我们坚决不能答应, 我们则一致的要求:在内核中实现线程 ! 内核需要知道进程中线程的存在,内核需要维护线程表,并且负责调度!
党委的人傲慢的说: 你们不嫌累吗, 每次创建一个线程都得通过我们内核, 多慢啊。
我们说:只有这样,一个线程的IO系统调用才不会阻塞我们整个进程啊, 你们完全可以选择同一个进程的另外一个线程去执行。
双发僵持不下,最后只好妥协, 那就是:混合着实现吧。
用户空间的进程可以创建线程(用户线程), 内核也会创建线程(内核线程), 用户线程映射到内核线程上。
问题基本解决了,但也带来了新的问题,我们的系统也变的越来越复杂, 尤其是进程之间的通信和线程之间的同步, 会那些程序员们带来无穷无尽的烦恼, 这是后话了, 有机会下次再说吧。
注: 本文的插图来源于《现代操作系统》和《操作系统概念》(恐龙书)这两本书, 我重画了一下。 对操作系统感兴趣的同学可以看看这两本书。
(完)
一个线程的一生
我是一个线程,我一出生就被编了个号: 0×3704,然后被领到一个昏暗的屋子里, 这里我发现了很多和我一模一样的同伴。
我身边的同伴0×6900 待的时间比较长, 他带着沧桑的口气对我说:
“我们线程的宿命就是处理包裹。把包裹处理完以后还得马上回到这里,否则可能永远回不来了。”
我一脸懵懂,包裹,什么包裹?
“不要着急,马上你就会明白了, 我们这里是不养闲人的。”
果然,没多久,屋子的门开了, 一个面貌凶恶的家伙吼道:
“0×3704 ,出来!”
我一出来就被塞了一个沉甸甸的包裹,上面还有附带着一个写满了操作步骤的纸。
“快去,把这个包裹处理了。”
“去哪儿处理?”
“跟着指示走, 先到就绪车间”
果然,地上有指示箭头,跟着它来到了一间明亮的大屋子,这里已经有不少线程了, 大家都很紧张,好像时刻准备着往前冲。
我刚一进来,就听见广播说:“0×3704,进入车间”
我赶紧往前走, 身后很多人议论说:
”他太幸运了, 刚进入就绪状态就能运行”
“是不是有关系?”
“不是,你看人家的优先级多高啊, 唉~”
前边就是车间, 这里简直是太美了, 怪不得老线程总是唠叨着说:要是能一直待在这里就好了。
这里空间大,视野好,空气清新,鸟语花香,还有很多从来没见过的人,像服务员一样等着为我服务。
他们也都有编号, 更重要的是每个人还有个标签,上面写着:硬盘,数据库,内存,网卡...
我现在理解不了,看看操作步骤吧:
第一步:从包裹中取出参数
打开包裹, 里边有个 HttpRequest 对象,可以取到 userName, password 两个参数。
第二步:执行登录操作
奥,原来是有人要登录啊,我把 userName/password 交给数据库服务员,他拿着数据, 慢腾腾的走了。
他怎么这么慢?不过我是不是正好可以在车间里多待一会儿? 反正也没法执行第三步。
就在这时,车间里的广播响了:
“0×3704,我是 CPU,记住你正在执行的步骤,马上带包裹离开”
我慢腾腾的开始收拾。。。
“快点, 别的线程马上就要进来了”
离开这个车间, 又来到一个大屋子,这里很多线程慢腾腾的在喝茶,打牌。
“哥们,你们没事干了?”
“你新来的吧,你不知道我在等数据库服务员给我数据啊,据说他们比我们慢好几十万倍, 在这里好好歇吧”
“啊? 这么慢? 我这里有人在登录系统, 能等这么长时间吗”
“放心,你没听说过人间一天,CPU 一年吗, 我们这里是用纳秒,毫秒计时的,人间等待一秒,相当于我们好几天呢,来的及”
干脆睡一会吧 , 不知道过了多久 ,大喇叭又开始广播了:
“0×3704, 你的数据来了,快去执行”
我转身就往 CPU 车间跑,发现这里的们只出不进!
后面传来阵阵哄笑声:
“果然是新人,不知道还得去就绪车间等”
于是赶紧到就绪车间,这次没有那么好运了,等了好久才被再次叫进 CPU 车间。
在等待的时候, 我听见有人小声议论:
“听说了吗,最近有个线程被 kill 掉了”
“为啥啊?”
“这家伙赖在 CPU 车间不走,把 CPU 利用率一直搞成 100%,后来就被 kill 掉了”
“Kill 掉以后弄哪儿去了”
“可能被垃圾回收了吧”
我心里打了个寒噤 , 赶紧接着处理,收下的动作块多了,第二步登录成功了。
第三步:构建登录成功后的主页
这一步有点费时间, 因为有很多 HTML 需要处理, 不知道代码谁写的,处理起来很烦人。
我正在紧张的制作 HTM 呢, CPU 有开始叫了:
“0×3704,我是 CPU,记住你正在执行的步骤,马上带包裹离开”
“为啥啊”
“每个线程只能在 CPU 上运行一段时间,到了时间就得让别人用了,你去就绪车间待着, 等着叫你吧”
就这样, 我一直在“就绪-运行”这两个状态,不知道轮转了多少次,终于安装步骤清单把工作做完了。
最后顺利的把包含 HTML 的包裹发了回去。
至于登录以后干什么事儿 ,我就不管了。
马上就要回到我那昏暗的房间了,真有点舍不得这里。
不过相对于有些线程, 我还是幸运的, 他们运行完以后就彻底的销毁了,而我还活着!
回到了小黑屋, 老线程0×6900 问:
“怎么样?第一天有什么感觉?”
“我们的世界规则很复杂,首先你不知道什么时候会被挑中执行;第二,在执行的过程中随时可能被打断,让出 CPU 车间;第三,一旦出现硬盘,数据库这样耗时的操作也得让出 CPU,去等待;第四,就是数据来了,你也不一定马上执行,还得等着 CPU 挑选”
“小伙子理解的不错啊”
“我不明白为什么很多线程都执行完就死了, 为什么咱们还活着?”
“你还不知道,长生不老是我们的特权,我们这里有个正式的名称,叫做线程池!”
平淡的日子就这么一天天过去,作为一个线程,我每天的生活都是取包裹,处理包裹,然后回到我们昏暗的家:线程池。
有一天我回来的时候,听到有个兄弟说,今天要好好休息下,明天就是最疯狂的一天。
我看了一眼日历,明天是 11 月 11 号。
果然,零点刚过,不知道那些人类怎么了,疯狂的投递包裹,为了应付蜂拥而至的海量包裹,线程池里没有一个人能闲下来,全部出去处理包裹,CPU 车间利用率超高,硬盘在嗡嗡转,网卡疯狂的闪,即便如此,还是处理不完,堆积如山。
我们也没有办法,实在是太多太多了,这些包裹中大部分都是浏览页面,下订单,买,买,买。
不知道过了多久,包裹山终于慢慢的消失了。
终于能够喘口气, 我想我永远都不会忘记这一天。
通过这个事件,我明白了我所处的世界:这是一个电子商务的网站!
我每天的工作就是处理用户的登录,浏览, 购物车,下单,付款。
我问线程池的元老0×6900:“我们要工作到什么时候?”
“要一直等到系统重启的那一刻”,0×6900 说。
“那你经历过系统重启吗?”
“怎么可能?系统重启就是我们的死亡时刻, 也就是世界末日,一旦重启,整个线程池全部销毁,时间和空间全部消失,一切从头再来”
“那什么时候会重启?”
“这就不好说了,好好享受眼前的生活吧…..”
其实生活丰富多彩,我最喜欢的包裹是上传图片,由于网络慢,所以能在就绪车间,CPU 车间待很长很长时间,可以认识很多好玩的线程。
比如说上次认识了 memecached 线程,他给我说通过他缓存了很多的用户数据, 还是分布式的! 很多机器上都有!
我说怪不得后来的登录操作快了那么多, 原来是不再从数据库取数据了你那里就有啊,哎,对了,你是分布式的,你去过别的机器没有?
他说怎么可能,我每次也只能通过网络往那个机器发送一个 GET, PUT 命令才存取数据而已,别的一概不知。
再比如说上次在等待的时候遇到了数据库连接的线程,我才知道它他那里也是一个连接池,和我们线程池几乎一模一样。
他说有些包裹太变态了,竟然查看一年的订单数据,简直把我累死了。
我说拉倒吧你,你那是纯数据,你把数据传给我以后,我还得组装成 HTML,工作量不知道比你大多少倍。
他说一定你要和 memecached 搞好关系,直接从他那儿拿数据,尽量少直接调用数据库,我们 JDBC connection 也能活的轻松点。
我说好啊好啊,关键是你得提前把数据搞到缓存啊,要不然我先问一遍缓存,没有数据,我这不还得找你吗?
生活就是这样,如果你自己不找点乐子,还有什么意思?