面试
文章平均质量分 89
upupfeng
贵有恒,要坚持~~
展开
-
Hive SQL语句面试题
记录一些Hive SQL语句面试题原创 2020-08-08 20:21:05 · 659 阅读 · 0 评论 -
数据仓库面试题
文章目录数据仓库的定义?数据仓库和数据库的区别?如何构建数据仓库?什么是数据中台?数据中台、数据仓库、大数据平台的关键区别是什么?基础能力上的区别业务能力上的区别大数据的一些相关系统?如何建设数据中台?数据湖的理解?数仓最重要的是什么?概念数据模型、逻辑数据模型、物理数据模型概念数据模型CDM逻辑数据模型LDM物理数据模型PDMSCD的常用处理方式?元数据的理解?技术元数据业务元数据元数据管理系统?元数据管理功能元数据管理标准元数据管理系统印象最深刻的项目是什么?为什么?亮点与优势?数仓如何确定主题域?主题原创 2020-07-20 12:49:16 · 19275 阅读 · 2 评论 -
Zookeeper面试题
文章目录Zookeeper是什么Zookeeper基本概念数据节点会话事务及ZXID事务日志数据快照Zookeeper核心文件系统通知机制zookeeper有哪些功能?zookeeper怎么保证主从节点的状态同步?zookeeper的通知机制Zookeeper是什么zookeeper是一个分布式、开源的分布式应用协调服务。它是一个为分布式应用提供一致性服务的软件,他是集群的管理者,监视着集群中每个节点的状态,并根据节点提交的返回进行下一步合理的操作客户端的读请求可以被集群中的任意一台机器处理,如果读原创 2020-07-20 12:43:47 · 433 阅读 · 0 评论 -
Impala面试题
文章目录Impala概述Impala特点Impala劣势Impala架构核心组件Statestore DaemonCatalog DaemonImpala Daemon(impalad)整体架构流程Impala与hive的异同数据存储元数据SQL解释处理执行计划数据流内存使用调度Impala概述impala提供对HDFS、HBase数据的高性能、低延迟的交互式SQL查询功能基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。Impala特点基于内存进行计算,能够对PB级数据原创 2020-07-20 12:42:15 · 1747 阅读 · 0 评论 -
Kudu面试题
文章目录kudu是什么?Table和Schema读写操作一致性模型Kudu的架构Catalog ManagerCluster CoordinatorTablet DirectoryTablet存储RowSetsMemRowSetDiskRowSetCompaction分区kudu的应用kudu和HBase比较HBase架构kudu架构主要区别数据存储方式HBasekudu差异区别写入和读取过程HBaseHBase的几个关键点HBase写过程HBase读数据kudukudu写过程kudu读过程总结LSMku原创 2020-07-20 12:38:18 · 1510 阅读 · 0 评论 -
Scala面试题
scala有什么特点?什么是函数式编程?有什么优点?scala语言集成面向对象和函数式编程函数式编程是一种典范,将电脑的运算看做是函数的和运算函数式编程中,函数是一等公民scala中的闭包闭包是一个函数,返回值依赖于声明在函数外部的一个或多个变量。闭包的实质就是代码与用到的非局部变量的混合。你可以在任何作用域内定义函数:包、类、另一个函数或方法在函数体内,可以访问到相应作用域内的任何变量。函数可以在变量不处于作用域内时被调用def mulBy(factor: Double): (x: D原创 2020-07-20 12:29:57 · 1187 阅读 · 0 评论 -
Hive面试题
文章目录Hive将SQL转为MapReduce的流程数据倾斜表现原因解决方式大表和小表关联时大表和大表关联时group数据倾斜时通用方式Hive的优化?本地模式并行执行严格模式小文件处理调整mapper和reducer的数量调整mapper数量调整reducer数量JVM重用推测执行几种排序的区别:Hive的特点Hive的一些概念内部表外部表insert into和insert overwriteHive元数据库中的表分区和分桶的区别分区分桶left join和left semi join区别Hive将S原创 2020-07-20 12:28:04 · 326 阅读 · 0 评论 -
Hadoop面试题
文章目录你们公司集群有多少机器,内存,硬盘,CPU?你们Hadoop、Hive、Kafka都是什么版本?你们每天的数据量有多少?数据总量是多少?分布式和集群的区别?Hadoop 1和Hadoop 2的区别?Hadoop 1Hadoop 2NameNode运行处理什么是Hadoop?说一说Hadoop的shuffle过程?Hadoop中为什么需要排序?HDFS相关概念特点缺点BlockNameNodeDataNodeEdit LogFSImageSecondary NameNodefsimage和edits合原创 2020-07-20 12:25:10 · 278 阅读 · 0 评论 -
Flume面试题
文章目录什么是flume?基本架构SourceChannelSink拦截器选择器负载均衡与故障转移什么是flume?flume最初是分布式、高可用的日志收集系统。不仅限于日志收集,还可以通过简单的配置收集不同数据源的海量数据并准确高效的传输到不同的数据中心flume通过可扩展、插件化、组合式、高可用、高容错的设计模式,为用户提供了简单、高效、准确的轻量化大数据采集工具基本架构收集(source)、暂存(channel)、输出(sink)agent:包含source、channel、sink等组原创 2020-07-20 12:20:46 · 393 阅读 · 0 评论 -
ElasticSearch面试题
文章目录什么是ES?ES中查询语法详细描述一下ElasticSearch索引文档的过程ElasticSearch是如何实现Master选举的?获取分片id的算法ES中的集群、节点、索引、文档、类型是什么?ES写数据流程ES读数据流程ES搜索数据的过程ES对于大数据量的聚合如何实现删除和更新原理merge操作,段合并底层lucene倒排索引Translog详解参考什么是ES?es是基于lucene的搜索引擎, 它提供了具有Http Web界面和JSON文档的分布式的全文搜索引擎。ES中查询语法es主要原创 2020-07-20 12:19:08 · 431 阅读 · 0 评论 -
Kafka面试题
什么是kafka?kafka是分布式发布-订阅消息系统,是一种分布式的消息队列工具kafka是一个分布式的,可分区的,可复制的消息系统kafka对消息保存的时候根据topic进行分类,发送消息者称为Producer,消息接受者称为consumer,此外kafka集群由多个kafka实例组成,每个实例称为broker依赖zookeeper来保证系统的可用性,保存元数据信息Kafka的设计...原创 2018-12-11 23:42:23 · 8246 阅读 · 4 评论 -
MySQL面试题
数据库三大范式第一范式:每一列都是不可再分的属性,确保每一列的原子性 两列的属性相似后者一致,尽量合并属性一样的列,确保不产生冗余第二范式:每一行的数据只能与其中一列相关,每一行数据只做一件事。只要数据列中出现数据重复,就要把表拆分开来。要求每一个实例必须可以被唯一的区分。第三范式:数据不能存在传递关系,即每个属性都跟主键有直接关系而不是++9间接关系三大范式只是一般设计数据库的基本理...原创 2018-12-09 22:56:51 · 222 阅读 · 0 评论 -
JVM面试题
什么是JVMJVM(Java Virtual Machine)是Java跨平台的基础,Java编译后的字节码可以运行在JVM上,实现一次编写到处执行Java内存区域程序计数器可以看做是当前线程所执行的字节码的行号指示器字节码解释器质性是通过改变这个计数器的值来选取下一条执行的字节码指令Java多线程是使用线程轮流切换并分配处理器执行时间来实现虚拟机栈线程私有的,生命周期与线程相同...原创 2018-12-08 19:10:37 · 502 阅读 · 0 评论 -
Java多线程面试题
进程和线程的概念与区别概念:进程是资源调度的基本单位,它是程序执行时的一个实例。程序运行时系统就会创建一个进程,并为它分配资源,然后把该进程放入进程就绪队列,进程调度器选中它的时候就会为它分配CPU时间,程序开始真正运行。线程是程序执行时的最小单位,它是进程的一个执行流,是CPU调度和分派的基本单位,一个进程可以由很多个线程组成,线程间共享进程的所有资源,每个线程有自己的堆栈和局部变量。线程...原创 2018-12-07 23:24:51 · 159 阅读 · 0 评论