面试专栏
文章平均质量分 87
主要是大数据的各个组件面试
Mr.Berg
大数据
展开
-
Spark面试
Spark的几种部署模式 1. Local: 测试环境 2. Standalone: spark自身的一个调度系统 3. Yarn: Spark客户端直接连接yarn, 不需要额外构建spark集群, 有yarn-client和yarn-cluster两种模式. 主要区别在于driver程序的运行节点 4. Mesos: 国内大环境比较少用 Spark任务使用什么进行提交 Shell脚本提交 Spark提交作业参数 executor-cores 每个executor使用的内核数, 默认为1,原创 2022-03-14 20:27:14 · 2228 阅读 · 0 评论 -
Kafka面试宝典
Kafka特性 高吞吐 ,低延迟 可扩展性 持久性 ,可靠性 容错性 高并发 Kafka使用场景 异步处理 ,日常解耦 ,削峰 ,提速 ,广播 例: 消息队列 ,网站活动 ,监控指标 ,日志集合 ,流处理 ,事件采集 ,日志提交 kafka选择Pull模式还是Push模式 produce将消息推送到replication副本(push),consumer从replication副本拉取消息(pull) 说明: 一些消息系统比如Scribe和Apache Flume采用了push模式 ,将原创 2022-03-14 16:22:00 · 3216 阅读 · 0 评论 -
Hive面试总结
Hive简介 hive是基于Hadoop的一个数据仓库工具 ,可以结构化映射成一张表 ,提供SQL查询功能 Hive的三种底层引擎 Hive引擎包括: 默认MapReduce ,Tez ,Spark MapReduce是一种编程模式 ,用于大规模数据集(大于1TB)的并行计算 Tez是对mapreduce进行进一步的查分 ,还是基于mapreduce的 Spark和Tez比较 使用场景: spark号称比Mr快100倍 ,而Tez也号称比Mr快100倍 ,二者性能都远超Mr spark与Te原创 2021-08-25 13:47:16 · 353 阅读 · 8 评论