HBase底层存储结构，HBase快速读取，hadoop的高可用和zk作用，网络模型，线程进程

最新推荐文章于 2022-09-28 14:02:42 发布

jialun0116

最新推荐文章于 2022-09-28 14:02:42 发布

阅读量735

点赞数

分类专栏：面经大数据文章标签：大数据

本文链接：https://blog.csdn.net/qq_30031221/article/details/115681508

版权

大数据同时被 2 个专栏收录

52 篇文章 20 订阅

订阅专栏

面经

21 篇文章 3 订阅

订阅专栏

4.13 面经总结

HBase底层存储引擎

缓存、索引、布隆过滤器、有序
Hbase底层的存储引擎为LSM-Tree(Log-Structured Merge-Tree)，结构化合并树的意思
LSM-Tree的设计思想：假定内存足够大，将对数据的修改增量保持在内存中，达到指定的大小限制后，再使用归并排序的方式将内存内的数据合并追加到磁盘队尾(因为所有待排序的树都是有序的，可以通过合并排序的方式快速合并到一起)，不过读取的时候稍微麻烦，需要合并磁盘中历史数据和内存中最近修改操作，所以写入性能大大提升，读取时可能需要先看是否命中内存，否则需要访问较多的磁盘文件。
把一棵大树拆分成N棵小树，它首先写入内存中**，随着小树越来越大，内存中的小树会flush到磁盘中，磁盘中的树定期可以做merge操作，合并成一棵大树，以优化读性能**。

HBase为什么读取那么快

HBase能提供实时计算服务主要原因是由LSM-Tree(Log-Structured Merge-Tree) + HTable(region分区) + Cache决定。Hbase可分成多个分区，客户端可以通过meta信息定位到要查数据所在的HRegion server服务器，通过Rowkey定位region，这当中会先经过BlockCache，这边找不到的话，再经过MemStore和Hfile查询，这当中通过布隆过滤器过滤掉一些不需要查询的HFile，且键是排好序了的，按列存储。
前面说过HBase会将数据保存到内存中，在内存中的数据是有序的，在HFile中保存的内容也是有序的。HFile文件为磁盘顺序读取做了优化，按页存储。下图展示了在内存中多个块存储并归并到磁盘的过程，合并写入会产生新的结果块，最终多个块被合并为更大块。
HBase的存储结构导致它需要磁盘寻道时间在可预测范围内，并且读取与所要查询的rowkey连续的任意数量的记录都不会引发额外的寻道开销。而且，HBase读取首先会在缓存（BlockCache）中查找，它采用了LRU（最近最少使用算法），如果缓存中没找到，会从内存中的MemStore中查找，只有这两个地方都找不到时，才会加载HFile中的内容，而上文也提到了读取HFile速度也会很快，因为节省了寻道开销。
举例
- 首先，能快速找到行所在的region(分区)，假设表有10亿条记录，占空间1TB, 分列成了500个region, 1个region占2个G. 最多读取2G的记录，就能找到对应记录；
- 其次，是按列存储的，其实是列族，假设分为3个列族，每个列族就是666M，如果要查询的东西在其中1个列族上，1个列族包含1个或者多个HStoreFile，假设一个HStoreFile是128M，该列族包含5个HStoreFile在磁盘上. 剩下的在内存中。
- 再次，是排好序了的，你要的记录有可能在最前面，也有可能在最后面，假设在中间，我们只需遍历2.5个HStoreFile共300M
- 最后，每个HStoreFile(HFile的封装)，是以键值对（key-value）方式存储，只要遍历一个个数据块中的key的位置，并判断符合条件可以了。一般key是有限的长度，假设跟value是1:19（忽略HFile上其它块），最终只需要15M就可获取的对应的记录，按照磁盘的访问100M/S，只需0.15秒。加上块缓存机制（LRU原则），会取得更高的效率。
- 实时查询，可以认为是从内存中查询，一般响应时间在1秒内。HBase的机制是数据先写入到内存中，当数据量达到一定的量（如128M），再写入磁盘中，在内存中，是不进行数据的更新或合并操作的，只增加数据，这使得用户的写操作只要进入内存中就可以立即返回，保证了HBase I/O的高性能。

HBase使用场景

单表数据量超千万，而且并发还挺高。
数据分析需求较弱，或者不需要那么灵活或者实时

zookeeper起什么作用的

ZooKeeper就是协调机制，在HDFS中主要就是协调选举主备NameNode节点。每个NN节点都会通过**“心跳”与ZooKeeper保持联系，报告自己的状态信息**虽然备NN节点不工作，但它里面的元数据信息和DN节点状态信息跟主NN节点是同步更新的，所以一旦备NN被选为主NN节点，会立刻接替主NN节点的工作

hadoop的HA(高可用)实现和zk的作用

在典型的HA集群中，一般有两台不同的机器充当nn,(note1 主机 nn ，note2 备用主机nn )。在任何时间，有且只有一台机器处于active状态；另一台机器处于standby状态。 active nn 负责所有客户端的操作，standby nn 主要用于备用，它的主要目的是 active nn宕机时，可以提供备用并快速的故障恢复。
standby nn 如何保持与active nn 数据同步 (元数据保持一致)
- 这里有一个JournalNodes守护进程，他俩都会和这个进程通信，当 active nn 执行任何有关命名空间的修改操作，它需要持久化到一半以上的 JournalNodes 上(通过 edits log 持久化存储),而 Standby NN 负责观察 edits log的变化,它能够读取从 JNs 中读取 edits 信息,并更新其内部的命名空间。一旦 Active NN出现故障,Standby NN 将会保证从 JNs 中读出了全部的 Edits,然后切换成 Active 状态。
- 为了提供快速的故障恢复,Standby NN 也需要保存集群中各个文件块的存储位置。为了实现这个,集群中所有的 Database 将配置好 Active NN 和 Standby NN 的位置,并向它们发送块文件所在的位置及心跳

冷备份 secondary node工作原理：

当有对元数据执行操作时，NN节点会生成新的对应日志文件(Editlog.new)
NN节点内存里存放的是日志文件(Editlog)和元数据镜像文件(Fsimage) ，namenode 滚动正在写的edits日志，SecondaryNN通过NN节点定时同步checkpoint获取得到滚动前的日志和镜像文件，
SecondaryNN中将二者合并成新的镜像文件Fsimage.ckpt文件并上传到主节点上
主节点将原来的镜像文件更新NN，此时在之前过程中新的日志文件(Editlog.new)已经变成Editlog，不再是新日志，与更新后的镜像文件重新同步到SecondaryNN上
当NN故障退出需要重新恢复时，可以从SecondaryNN的工作目录中将Fsimage拷贝到NN的工作目录，以恢复NN中的元数据。
默认情况下进行ckeckpoint（合并镜像及编辑日志）的触发条件是什么？
- 2NN每隔一小时执行一次checkpoint
- 一分钟检查一次Edits文件的操作次数，当操作次数达到1百万时，2NN执行一次checkpoint

一个文件有上亿url，内存很小，找Top10

外排序采用分块的方法（分而治之），首先将数据分块，对块内数据按选择一种高效的内排序策略进行排序。然后采用归并排序的思想对于所有的块进行排序，得到所有数据的一个有序序列。
把磁盘上的1TB数据分割为40块（chunks），每份25GB。（注意，要留一些系统空间！）
顺序将每份25GB数据读入内存，使用quick sort算法排序。
把排序好的数据（也是25GB）存放回磁盘。
循环40次，现在，所有的40个块都已经各自排序了。（剩下的工作就是如何把它们合并排序！）
从40个块中分别读取25G/40=0.625G入内存（40 input buffers）。
执行40路合并，并将合并结果临时存储于2GB 基于内存的输出缓冲区中。当缓冲区写满2GB时，写入硬盘上最终文件，并清空输出缓冲区；当40个输入缓冲区中任何一个处理完毕时，写入该缓冲区所对应的块中的下一个0.625GB，直到全部处理完成。

OSI 的七层模型分别是？各自的功能是什么？

物理层：底层数据传输，如网线；网卡标准。 比特流
数据链路层：定义数据的基本格式，如何传输，如何标识；如网卡MAC地址。帧
网络层：定义IP编址，定义路由功能；如不同设备的数据转发。包
传输层：端到端传输数据的基本功能；如 TCP、UDP。段
会话层：控制应用程序之间会话能力；如不同软件数据分发给不同软件。
表示层：数据格式标识，基本压缩加密功能。
应用层：各种应用软件，包括 Web 应用。
网络七层模型是一个标准，而非实现。
网络四层模型是一个实现的应用模型。数据链路网络传输应用层

说一下一次完整的HTTP请求过程包括哪些内容？

域名解析 --> 发起TCP的3次握手 --> 建立TCP连接后发起http请求 --> 服务器响应http请求，浏览器得到html代码 --> 浏览器解析html代码，并请求html代码中的资源（如js、css、图片等） --> 浏览器对页面进行渲染呈现给用户。

DNS及其原理

官方解释：DNS（Domain Name System，域名系统），因特网上作为域名和IP地址相互映射的一个分布式数据库，能够使用户更方便的访问互联网，而不用去记住能够被机器直接读取的IP数串。
将主机域名转换为ip地址，属于应用层协议，使用UDP传输（速度快，TCP要3握手，发送应答，4挥手，且返回的数据一半小于512字节）。

总结： 浏览器缓存，系统缓存，路由器缓存，IPS服务器缓存，根域名服务器缓存，顶级域名服务器缓存，主域名服务器缓存。
一、主机向本地域名服务器的查询一般都是采用递归查询。
二、本地域名服务器向根域名服务器的查询的迭代查询。

进程和线程的区别和使用场景

根本区别：进程是操作系统资源分配和管理的基本单位，线程是处理器任务调度和执行的基本单位
地址空间： 进程之间是相互独立的，线程共享本进程的地址空间
资源： 进程之间资源独立；线程共享进程的内存、IO资源，不利于资源管理和保护；
健壮： 多进程比多线程健壮，一个进程崩溃后，在保护模式下不会对其他造成影响，线程崩溃整个进程死掉
执行过程（开销）： 每个独立的进程有一个程序运行的入口、顺序执行序列，执行开销大；线程不能独立执行，依存在应用程序中，开销小。
可并发性： 都可并发执行
协程，比线程更加轻量级的存在
对资源的管理和保护要求高，不限制开销和效率时，使用多进程。
要求效率高，频繁切换时，速度快，资源的保护管理要求不是很高时，使用多线程。

一个进程可以创建多少线程，和什么有关？

理论上，一个进程可用虚拟空间是2G，默认情况下，线程的栈的大小是1MB，所以理论上最多只能创建2048个线程。如果要创建多于2048的话，必须修改编译器的设置。

jialun0116

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
HBase底层存储结构，HBase快速读取，hadoop的高可用和zk作用，网络模型，线程进程

HBase底层存储引擎Hbase为什么读取那么快Hbase使用场景zookeeper起什么作用的hadoop的HA(高可用)实现和zk的作用冷备份 secondary node工作原理：一个文件有上亿url，内存很小，找Top10OSI 的七层模型分别是？各自的功能是什么？说一下一次完整的HTTP请求过程包括哪些内容？DNS及其原理进程和线程的区别和使用场景一个进程可以创建多少线程，和什么有关？
复制链接

扫一扫