大数据
文章平均质量分 80
大数据框架面试总结
18阿鲁
只为成功找方法,不为失败找借口
展开
-
《深入理解Kafka学习笔记:核心设计与实践原理》-第1章初识Kafka
第1章初识Kafka1.1基本概念Kafka起初是由LinkedIn公司采用Scala语言开发的一个多分区、多副本且基于ZooKeeper协调的分布式消息系统。目前Kafka已经定位为一个分布式流式处理平台,它以高吞吐、可持久化、可水平扩展、支持流数据处理等多种特性而被广泛使用。Kafka 体系架构一个典型的 Kafka 体系架构包括若干 Producer、若干 Broker、若干 Consumer,以及一个ZooKeeper集群。ZooKeeper是Kafka用来负责集群元数据的管理、控制器的选转载 2021-09-10 20:51:43 · 273 阅读 · 0 评论 -
《深入理解Kafka学习笔记:核心设计与实践原理》-第4章 主题与分区
目录第4章 主题与分区4.1 主题的管理4.1.1 创建主题4.1.2 分区副本的分配4.1.3 查看主题4.1.4 修改主题4.1.5 配置主题4.1.7 删除主题4.3 分区的管理4.3.1 优先副本的选举4.3.2 分区重分配4.4如何选择合适的分区4.4.1 性能测试工具4.4.2 分区数越多吞吐量就越高吗4.4.3 分区数的上限4.4.4 考量因素4.5 总结第4章 主题与分区从Kafka的底层实现来说,主题和分区都是逻辑上的概念,分区可以有一至多个副本,每个副本对应一个日志文件,每个日志文件转载 2021-09-21 15:45:24 · 782 阅读 · 0 评论 -
《深入理解Kafka:核心设计与实践原理》-第5章 日志存储
文章目录5.1 文件目录布局5.2 日志格式的演变 5.2.1 v0版本 5.2.2 v1版本5.2.3 消息压缩5.2.4 变长字段 (非重点)5.2.5 v2版本5.3 日志索引5.1 文件目录布局一个分区对应一个日志(Log)。为了防止 Log 过大,Kafka又引入了日志分段(LogSegment)的概念,将Log切分为多个LogSegment。每个LogSegment 对应于磁盘上的一个日志文件和两个索引文件,偏移量索引文件(以“.index”为文件后缀)和时间戳索引文件(以“.timein转载 2021-11-13 22:00:08 · 132 阅读 · 0 评论 -
Kafka面试题整理
问题来自“朱小厮的博客”的Kafka面试题全套整理 | 划重点要考!朱小厮给出了问题,下面是我对这些问题解答。 优先副本是什么?它有什么特殊的作用?优先副本是什么?它有什么特殊的作用?优先副本: 一个分区副本集合的第一个副本称之为优先副本。比如主题 topic-partitions 中分区 0的AR集合列表(Replicas)为[1,2,0],那么分区0的优先副本即为1。优先副本的选举: 通过一定的方式促使优先副本选举为leader副本,以此来促进集群的负载均衡,这一行为也可以称为“分区平衡”。原创 2021-09-19 19:35:10 · 381 阅读 · 0 评论 -
Spark面试问题总结
Spark面试问题总结原创 2022-08-09 23:32:02 · 502 阅读 · 0 评论 -
HDFS面试问题总结
HDFS面试问题总结原创 2022-08-08 00:26:36 · 691 阅读 · 0 评论 -
Hadoop面试问题总结
hadoop面试问题原创 2022-08-07 23:40:45 · 996 阅读 · 0 评论 -
《 Hadoop 3大数据技术快速入门 》的笔记四
《 Hadoop 3大数据技术快速入门 》的笔记四转载 2022-07-20 22:53:34 · 124 阅读 · 0 评论 -
《 Hadoop 3大数据技术快速入门 》的笔记三
《 Hadoop 3大数据技术快速入门 》的笔记三转载 2022-07-20 22:45:11 · 109 阅读 · 0 评论 -
《 Hadoop 3大数据技术快速入门 》的笔记二
《 Hadoop 3大数据技术快速入门 》的笔记二转载 2022-07-19 23:07:22 · 167 阅读 · 0 评论 -
《 Hadoop 3大数据技术快速入门 》的笔记一
Hadoop 3大数据技术快速入门转载 2022-07-18 22:35:38 · 211 阅读 · 0 评论 -
Hive表 建表
文章目录分区表内部表 外部表分区表一个表可以拥有一个或者多个分区,每个分区以文件夹的形式单独存在表文件夹的目录下。分区是以字段的形式在表结构中存在,通过describe table命令可以查看到字段存在,但是该字段不存放实际的数据内容,仅仅是分区的表示。分区表的好处:在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。表中的一个 Partition 对应于表下的一个目录,Partition原创 2021-10-20 19:43:23 · 352 阅读 · 0 评论