2020年07月_upupfeng

原创 Spark Streaming高吞吐、高可靠的一些优化

分享一些Spark Streaming在使用中关于高吞吐和高可靠的优化。

2020-07-31 20:09:34 390

原创谈谈Hadoop MapReduce和Spark MR实现

谈谈什么是MapReduce？Spark中MR思想的实现？

2020-07-27 17:33:12 315

文章目录数据仓库的定义？数据仓库和数据库的区别？如何构建数据仓库？什么是数据中台？数据中台、数据仓库、大数据平台的关键区别是什么？基础能力上的区别业务能力上的区别大数据的一些相关系统？如何建设数据中台？数据湖的理解？数仓最重要的是什么？概念数据模型、逻辑数据模型、物理数据模型概念数据模型CDM逻辑数据模型LDM物理数据模型PDMSCD的常用处理方式？元数据的理解？技术元数据业务元数据元数据管理系统？元数据管理功能元数据管理标准元数据管理系统印象最深刻的项目是什么？为什么？亮点与优势？数仓如何确定主题域？主题

2020-07-20 12:49:16 19479 2

原创 Zookeeper面试题

文章目录Zookeeper是什么Zookeeper基本概念数据节点会话事务及ZXID事务日志数据快照Zookeeper核心文件系统通知机制zookeeper有哪些功能？zookeeper怎么保证主从节点的状态同步？zookeeper的通知机制Zookeeper是什么zookeeper是一个分布式、开源的分布式应用协调服务。它是一个为分布式应用提供一致性服务的软件，他是集群的管理者，监视着集群中每个节点的状态，并根据节点提交的返回进行下一步合理的操作客户端的读请求可以被集群中的任意一台机器处理，如果读

2020-07-20 12:43:47 440

原创 Impala面试题

文章目录Impala概述Impala特点Impala劣势Impala架构核心组件Statestore DaemonCatalog DaemonImpala Daemon（impalad）整体架构流程Impala与hive的异同数据存储元数据SQL解释处理执行计划数据流内存使用调度Impala概述impala提供对HDFS、HBase数据的高性能、低延迟的交互式SQL查询功能基于Hive，使用内存计算，兼顾数据仓库、具有实时、批处理、多并发等优点。Impala特点基于内存进行计算，能够对PB级数据

2020-07-20 12:42:15 1783

原创 Kudu面试题

文章目录kudu是什么？Table和Schema读写操作一致性模型Kudu的架构Catalog ManagerCluster CoordinatorTablet DirectoryTablet存储RowSetsMemRowSetDiskRowSetCompaction分区kudu的应用kudu和HBase比较HBase架构kudu架构主要区别数据存储方式HBasekudu差异区别写入和读取过程HBaseHBase的几个关键点HBase写过程HBase读数据kudukudu写过程kudu读过程总结LSMku

2020-07-20 12:38:18 1654

原创 Scala面试题

scala有什么特点？什么是函数式编程？有什么优点？scala语言集成面向对象和函数式编程函数式编程是一种典范，将电脑的运算看做是函数的和运算函数式编程中，函数是一等公民scala中的闭包闭包是一个函数，返回值依赖于声明在函数外部的一个或多个变量。闭包的实质就是代码与用到的非局部变量的混合。你可以在任何作用域内定义函数：包、类、另一个函数或方法在函数体内，可以访问到相应作用域内的任何变量。函数可以在变量不处于作用域内时被调用def mulBy(factor: Double): (x: D

2020-07-20 12:29:57 1192

原创 Hive面试题

文章目录Hive将SQL转为MapReduce的流程数据倾斜表现原因解决方式大表和小表关联时大表和大表关联时group数据倾斜时通用方式Hive的优化？本地模式并行执行严格模式小文件处理调整mapper和reducer的数量调整mapper数量调整reducer数量JVM重用推测执行几种排序的区别：Hive的特点Hive的一些概念内部表外部表insert into和insert overwriteHive元数据库中的表分区和分桶的区别分区分桶left join和left semi join区别Hive将S

2020-07-20 12:28:04 373

原创 Hadoop面试题

文章目录你们公司集群有多少机器，内存，硬盘，CPU？你们Hadoop、Hive、Kafka都是什么版本？你们每天的数据量有多少？数据总量是多少？分布式和集群的区别？Hadoop 1和Hadoop 2的区别？Hadoop 1Hadoop 2NameNode运行处理什么是Hadoop？说一说Hadoop的shuffle过程？Hadoop中为什么需要排序？HDFS相关概念特点缺点BlockNameNodeDataNodeEdit LogFSImageSecondary NameNodefsimage和edits合

2020-07-20 12:25:10 286

原创 Flume面试题

文章目录什么是flume？基本架构SourceChannelSink拦截器选择器负载均衡与故障转移什么是flume？flume最初是分布式、高可用的日志收集系统。不仅限于日志收集，还可以通过简单的配置收集不同数据源的海量数据并准确高效的传输到不同的数据中心flume通过可扩展、插件化、组合式、高可用、高容错的设计模式，为用户提供了简单、高效、准确的轻量化大数据采集工具基本架构收集（source）、暂存（channel）、输出（sink）agent：包含source、channel、sink等组

2020-07-20 12:20:46 397

原创 ElasticSearch面试题

文章目录什么是ES？ES中查询语法详细描述一下ElasticSearch索引文档的过程ElasticSearch是如何实现Master选举的？获取分片id的算法ES中的集群、节点、索引、文档、类型是什么？ES写数据流程ES读数据流程ES搜索数据的过程ES对于大数据量的聚合如何实现删除和更新原理merge操作，段合并底层lucene倒排索引Translog详解参考什么是ES？es是基于lucene的搜索引擎，它提供了具有Http Web界面和JSON文档的分布式的全文搜索引擎。ES中查询语法es主要

2020-07-20 12:19:08 443

upupfeng的博客