JAVA程序员之计算机底层知识
微机原理 计算机组成原理 操作系统
-
入门:《编码:隐匿在计算机软硬件背后的语言》《深入理解计算机系统》 *
-
数据结构与算法: -毕生的学习 leetcode
C JAVA 《C Primer Plus》
《Java数据结构与算法》《算法》*
《算法导论》《计算机程序设计艺术》 -
操作系统:Linux内核设计与实现 30天自制操作系统
-
网络:机工《TCP/IP详解》卷一
-
编译原理:机工龙书 编译原理》《编程语言实现模式》马语
-
数据库:SQLite源码 Derby JDK自带数据库
精简版笔记地址:http://mashibing.com/doc/
1. 硬件基础知识
Intel cpu的制作过程 https://haokan.baidu.com/v?vid=11928468945249380709&pd=bjh&fr=bjhauthor&type=video
1.1 CPU的原理 晶体管
晶体管的工作原理 https://www.bilibili.com/video/av47388949?p=2
1.2 CPU和内存是计算机核心
CPU的基本组成
PC (记录当前指令地址)+指令字长
Registers(暂时存储CPU计算需用到的数据 与CPU位数相关)
ALU (运算)
CU(控制)
MMU(内存管理单元 )硬件+OS实现
cache
1.3 量子计算机
量子比特,同时表示1 0
1.4 汇编语言(机器语言)的执行过程
-
汇编语言的本质:机器语言的助记符 本质就是机器语言
-
编译性语言:源代码一次性转换成二进制指令,也就是生成一个可执行程序,比如C语言、C++、Golang、Pascal(Delphi)、汇编等
-
解释性语言:一边执行一边转换,需要哪些源代码就转换哪些源代码,不会生成可执行程序,比如 Python、JavaScript、PHP、Shell、MATLAB
-
JAVA通过虚拟机JVM解释来实现跨平台
汇编实现引导程序(不重要)
编写汇编码
编译
nasm boot.asm -o boot.bin
制作启动软盘
dd if=/dev/zero of=floppy.img bs=1474560(1.44M)count=1 生成空白软盘镜像
dd if=boot.bin of=myos.img bs=512 count=1 制作包含主引导记录boot.bin的启动镜像文件
dd if=floppy.img of=myos.img skip=1 seek=1 bs=512 count=2879 在 bin 生成的镜像文件后补上空白,成为合适大小的软盘镜像,一共2880个扇区,略过第一个
用软盘启动系统
将myos.img下载到windows
VMWare创建空的虚拟机
文件 - 创建新的虚拟机 - 典型
稍后安装操作系统
其他
一路next 完成
虚拟机设置,去掉CD/DVD选项中“启动时连接”
网络,选择“仅主机模式”,勾选“启动时连接”(好像无所谓)
添加软盘驱动器 使用软盘映像 找到myos.img
启动虚拟机
为什么是0x7C00?
IBM小故事
2、存储器的层次结构
按块读取
程序局部性原理 充分发挥总线、CPU针脚一次性读取更多数据能力
2.1 缓存行装不下->锁总线
伪共享->缓存行对齐(*)
对于特别敏感的数字,会存在线程高竞争的访问,为了保证补发下伪共享,可以使用缓存行对齐的编程方式
JDK7中很多采用 long padding提高效率
JDK8中添加注解 @Contended,需要加上:JVM-XX:-RestrictContended,保证不在同一缓存行
缓存行-内存页-硬盘块
2.2 Cache一致性协议
不同CPU对应不同缓存一致性协议
3、CPU的特性
3.1 多流水线执行
3.2 乱序执行的证明
乱序执行可能会产生问题:DCL单例为什么要加volatile(用锁屏障,不是原语实现):禁止指令重排序
3.3 禁止乱序
CPU层面:Intel->原语(mfence ifence sfence)或者锁总线
硬件上保证顺序执行的两种方式
原语效率比lock指令效率高
JVM层面:8个hanppens-before原则 4个内存屏障(LL LS SL SS)
4个内存屏障
volatile实现
前后都加内存屏障 实际上具体实现还是用lock指令
8个hanppens-before原则
as-if-serial:不管硬件什么顺序,单线程执行结果不变,看上去像是serial
WC Write Combining Buffer 合并写技术(不重要)
juc/c029 一般是4个字节 由于ALU速度太快,所以在写入L1同时,写入一个WC Buffer,满了之后,再直接更新到L2
UMA与NUMA
ZGC-NUMA aware 分配内存会优先分配该线程所在CPU的最近内存
启动过程(不重要)
cmos 记录配置信息
通电->bios uefi芯片工作->自检->到硬盘固定位置加载bootloader->读取可配置信息->CMOS->OS
4、OS基础
4.1 内核分类
微内核 -弹性部署 5G IoT
宏内核 -PC phone
外核 -科研 实验中 为应用定制操作系统(多租户 request-based GC JVM)
宏内核
微内核
外核
VMM
4.2 用户态和内核态
CPU分不同的指令级别 linux内核跑在ring 0级,用户程序跑在ring 3级,对于系统的关键访问,需要经过kernel同意,保证系统健壮性 内核执行的操作->200多个系统调用 sendfile read write pthread fork
JVM - > 站在OS老大角度,就是个普通程序
4.3 进程 线程 纤程/协程
面试高频:进程和线程有什么区别?
进程就是一个程序运行起来的状态,线程是一个进程中的不同执行路径。
专业:进程是OS分配资源的基本单位,线程是执行调度的基本单位。
分配资源最重要的是:独立的内存空间,线程调度执行(线程共享进程的内存空间,没有自己独立的内存空间)
纤程
纤程:用户态的线程,用户空间级别的线程,线程中的线程,切换和调度不需经过OS
优势: 1 占有资源很有 os: 线程 1M Fiber 4K 2 切换比较简单 3 启动很多个10W+
目前支持内置纤程的语言:Kotlin Scala Go Python(lib) …Java(open jdk :loom)
Java对于纤程的支持:没有内置,盼望内置
线程和纤程的区别
10000个Fiber->1个JVM线程
提高效率 10000Fiber->10份->10Threads
纤程的应用场景
纤程vs线程池:很短的计算任务,不需和内核打交道,并发量高!
进程
内核独用的线程
僵尸进程和孤儿进程
僵尸进程只占PCB
孤儿进程影响不大
进程(任务)调度
Unix O(1) 采用时间片调度策略
2.6采用CFS调度策略:Completely Fair Scheduler 按优先级分配时间片的比例,记录每个进程的执行时间,如果有一个进程执行时间不到他应该分配的比例,优先执行
默认调度策略:实时(急诊):优先级分高低-FIFO(First In First Out),优先级一样-RR(Round Robin) 普通:CFS
4.3 中断
硬件跟操作系统内核打交道的一种机制
硬中断(硬件打断内核)与软中断(int 0x80中断,软件打断内核,系统调用)(200多个调用函数)
从汇编角度理解软中断
搭建汇编环境:yum install nasm
编译: nasm -f elf hello.asm -o hello.o
链接:Id -m elf_i386 -o hello hello.o
一个程序的执行过程,要么处于用户态,要么处于内核态
高并发量实现:分而治之
4.4 内存管理
内存管理的发展历程
DOS时代 - 同一时间只能一个进程在运行(也有些特殊算法可支持多进程)
windows9x - 多进程装入内存 1 内存不够用 2 相互打扰
为解决这两个问题,诞生了现在的内存管理系统:虚拟地址 分页装入 软硬件结合寻址
分页 - 解决内存不够用问题
内存中分成固定大小的页框(4K),把程序(硬盘上)分成4K大小的块,用到哪块,加载哪块,加载过程中,若内存已满,会把最不常用的一块放到swap分区,把最新的一块加载进来,这个就是著名的LRU算法 (LeetCode146题,头条要求手撕,阿里去年也要求)
LRU Least Recently Used 最不常用
哈希表(保证查找操作O(1))+单链表(保证排序操作和新增操作O(1) ) ->O(1)
Linked HashMap(JDK自带类,实现缓存)
双向链表(保证左边指针指向右边块)
虚拟内存 - 解决相互打扰问题
1.DOS Win31… 相互干掉
2.为了保证互不影响 - 让进程工作在虚拟空间,程序中用到的空间地址不再是直接的物理地址,而是虚拟的地址,这样,A进程永远不可能访问到B进程的空间
3.虚拟空间多大? 寻址空间-64位系统2^64 byte,比物理空间大很多
4. 站在虚拟的角度,进程是独享整个系统+CPU
5.内存映射:偏移量+段的基地址=线性地址(虚拟空间)
6.线性地址通过OS+MMU(硬件 Memory Managemen Unit)转换为物理地址
7.缺页中断 (缺页异常) 需要用到的页面内存中没有,由内核处理并加载
ZGC
算法叫做:Colored Pointer
GC信息记录在指针上,而不是记录在头部,immediate memory use
42位指针 寻址空间4T JDK13->16T 目前醉倒16T 2^44
颜色指针本质上包含了地址映射、虚拟地址的概念
CPU如何区分一个立即数 和 一条指令
总线内部分为:数据总线 地址总线 控制总线
地址总线目前:48位
4.5 内核同步机制
关于同步理论的一些基本概念
•临界区(critical area): 访问或操作共享数据的代码段 简单理解:synchronized大括号中部分(原子性)
•竞争条件(race conditions)两个线程同时拥有临界区的执行权
•数据不一致:data unconsistency 由竞争条件引起的数据破坏
•同步(synchronization)避免race conditions
•锁:完成同步的手段(门锁,门后是临界区,只允许一个线程存在) 上锁解锁必须具备原子性
•原子性(象原子一样不可分割的操作)
•有序性(禁止指令重排) volatile
•可见性(一个线程内的修改,另一个线程可见) volatile
互斥锁 排他锁 共享锁 分段锁
内核同步常用方法
1.原子操作 – 内核中类似于AtomicXXX,位于<linux/types.h>
2.自旋锁 – 内核中通过汇编支持的cas,位于<asm/spinlock.h>
3.读-写自旋 – 类似于ReadWriteLock,可同时读,只能一个写 :读的时候是共享锁,写的时候是排他锁
4.信号量 – 类似于Semaphore(PV操作 down up操作 占有和释放): 重量级锁,线程会进入wait,适合长时间持有的锁情况
5.读-写信号量 – downread upread downwrite upwrite(多个写,可以分段写,比较少用)(分段锁)
6.互斥体(mutex) – 特殊的信号量(二值信号量)
7.完成变量 – 特殊的信号量(A发出信号给B,B等待在完成变量上) vfork() 在子进程结束时通过完成变量叫醒父进程 类似于(Latch)
8.BKL:大内核锁(早期,现在已经不用)
9.顺序锁(2.6): – 线程可以挂起的读写自旋锁
序列计数器(从0开始,写时增加(+1),写完释放(+1),读前发现单数,说明有写线程,等待,读前读后序列一样,说明没有写线程打断)
10.禁止抢占 – preempt_disable()
11.内存屏障 见volatile