大数据框架&技术相关面试题
文章平均质量分 81
面试题整理~
韩家小志
这个作者很懒,什么都没留下…
展开
-
Spark--优化
Spark--优化0.spark程序的执行流程优化方向尽可能复用RDD保证对一个RDD执行多次算子操作时,这个RDD本身仅仅被计算一次。1.避免创建重复的RDD2.尽可能复用同一个RDD3.对多次使用的RDD进行持久化4.尽量避免使用shuffle类算子5.使用map-side预聚合的shuffle操作6.使用高性能的算子7.广播变量0.spark程序的执行流程优化方向尽可能复用RDD1和2保证对一个RDD执行多次算子操作时,这个RDD本身仅仅被计算一次。对多次使用的RDD进行持久化。原创 2021-03-02 00:04:17 · 180 阅读 · 1 评论 -
hive--从底层梳理优化
hive--优化总结SQL执行顺序这些关键字决定了什么对应怎么优化呢?首先,针对mr的input阶段第二,针对mr的map阶段第三,针对mr的shuffle阶段第四,针对mr的reduce阶段第五,针对mr的output阶段第六,针对全局配置优化压缩配置优化拉链表使用分桶并行操作索引小文件的处理数据倾斜参数调节SQL调节优化器SQL优化小表大表关联中表:大表关联大表总结ps:本段总结只是方便我的全局理解,如果哪里不合理欢迎指导对于一段sql,我们可以分析一下SQL执行顺序(7) SEL原创 2021-02-25 00:14:22 · 1287 阅读 · 1 评论 -
大数据处理相关
大数据处理相关给定 a、b 两个文件,各存放 50 亿个 url,每个 url 各占 64 字节,内存限制是 4G,让你找出 a、b 文件共同的 url?方案 1:方案 2:内存映射成 BIT 最小存储单元。【补充】有 10 个文件,每个文件 1G,每个文件的每一行存放的都是用户的 query,每个文件的 query 都可能重复。要求你按照query 的频度排序。方案 1:方案 2:方案 3:有一个 1G 大小的一个文件,里面每一行是一个词,词的大小不超过 16 字节,内存限制大小是 1M。返回频数最高的原创 2021-03-01 00:04:24 · 250 阅读 · 1 评论 -
Flume相关
Flume1.flume管道内存,flume宕机了数据丢失怎么解决2. flume配置方式,flume集群Flume的架构常用Source:常用channel常用sink3.flume不采集Nginx日志,通过Logger4j采集日志,优缺点是什么?4.flume和kafka采集日志区别,采集日志时中间停了,怎么记录之前的日志。1.flume管道内存,flume宕机了数据丢失怎么解决解答:1、Flume的channel分为很多种,可以将数据写入到文件2、防止非首个agent宕机的方法数可以做集群原创 2021-03-01 00:04:52 · 171 阅读 · 1 评论 -
java相关
java相关1.JVM内存管理的机制2.Java堆和栈的区别3.Java内存泄露和内存溢出4.Java类加载机制5.内存回收1.JVM内存管理的机制内存空间划分为:Sun JDK在实现时遵照JVM规范,将内存空间划分为堆、JVM方法栈、方法区、本地方法栈、PC寄存器。堆: 堆用于存储对象实例及数组值,可以认为Java中所有通过new创建的对象的内存都在此分配,Heap中对象所占用的内存由GC进行回收,在32位操作系统上最大为2GB,在64位操作系统上则没有限制,其大小可通过-Xms和-Xmx来控制,原创 2023-12-03 19:36:38 · 39 阅读 · 0 评论 -
hadoop相关
hadoopHadoop的功能以及模块功能:Hadoop解决的问题模块下面哪个程序负责 HDFS 数据存储?hdfs 中的 block 默认保存几份?下列哪个程序通常与NameNode 在一个节点启动?HDFS 默认 Block SizeClient 端上传文件的时候下列哪项正确下面与 HDFS 类似的框架是?Ganglia 不仅可以进行监控,也可以进行告警。(正确)Nagios 不可以监控 Hadoop 集群,因为它不提供 Hadoop支持。(错误 )如果 NameNode 意外终止,SecondaryN原创 2021-03-01 00:04:41 · 971 阅读 · 1 评论 -
Hbase相关
Hbase相关1.HBase 来源于哪篇博文?2. 下面对 HBase 的描述哪些是正确的?3.HBase 依靠()存储底层数据4. HBase 依赖()提供消息通信机制5.HBase 依赖()提供强大的计算能力6. MapReduce 与 HBase 的关系,哪些描述是正确的?7.下面哪些选项正确描述了HBase 的特性?8.下面哪些概念是 HBase 框架中使用的?9. LSM 含义是?10.下面对 LSM 结构描述正确的是? A、C11.LSM 更能保证哪种操作的性能?B12.LSM 的读操作和写操作原创 2021-03-01 00:03:52 · 2430 阅读 · 1 评论 -
hive相关汇总
hive1. hive 有哪些方式保存元数据,各有哪些特点?2. hive内部表和外部表的区别3.生产环境中为什么建议使用外部表?4.你们数据库怎么导入hive 的,有没有出现问题5.简述Hive中的虚拟列作用是什么,使用它的注意事项6.hive partition分区7. hive partition什么时候使用手动分区8.hive partition怎么手动分区9.hive partition什么时候使用自动分区10.hive partition怎么自动分区11.如何查看分区12.分桶结构表cluste原创 2021-03-01 00:04:08 · 1121 阅读 · 1 评论 -
数仓相关汇总
数仓相关1.数据仓库的意义2.维度划分的依据1.数据仓库的意义空间换时间避免用户直接使用操作型数据清晰数据结构每一个分层都有他的作用域复杂问题简单化数据血缘追踪减少重复开发屏蔽原始数据的异常2.维度划分的依据结合业务,从什么角度分析,比如商品表的维度通常包含食品,饮料,非消费品等若干层次结构...原创 2021-03-07 16:00:37 · 779 阅读 · 2 评论 -
Zookeeper相关
Zookeeper相关1.下面与 Zookeeper 类似的框架是?D2.与linux文件系统的区别3.对 zookeeper 的理解本质区别:与别的文件系统有什么 不一样架构:功能:1.下面与 Zookeeper 类似的框架是?DA ProtobufB JavaC KafkaD Chubby2.与linux文件系统的区别Linux目录:不存内容,允许有下一级文件:存储内容,但是没有下一级Zookeeper节点:Znode,文件节点可以存储内容,也允许有下一级节点原创 2021-03-07 16:01:15 · 1505 阅读 · 0 评论 -
Spark相关
Spark相关1.讲讲RDD2.依赖关系详细讲一下3.Spark和mapReduce的区别能说一下嘛,各自优缺点4.spark是怎么保证容错的5.SparkStreaming说说6.spark运行模式大概有几种,每种模式的区别7.spark在yarn上运行,运行模式是什么,为什么8.spark里面的job,stage和task区别9.平时在开发spark的时候遇到什么问题(比如内存溢出)9.1map过程产生大量对象导致内存溢出:9.2数据不平衡导致内存溢出:9.3coalesce调用导致内存溢出:9.4sh原创 2021-03-07 16:01:28 · 508 阅读 · 0 评论