王知无(import_bigdata)
微信搜:import_bigdata
GitHub搜:https://github.com/wangzhiwubigdata/God-Of-BigData
展开
-
2022年最新版大数据面试题全面总结-持续更新
2021-2022大数据面试题全面总结原创 2021-01-10 12:55:40 · 10101 阅读 · 6 评论 -
大数据面试通关手册|数据仓库面试题(四)
⭐⭐欢迎关注博客主页:https://blog.csdn.net/u013411339⭐⭐欢迎点赞 👍 收藏 ⭐留言 📝 ,欢迎留言交流!⭐⭐本文由【王知无】原创,首发于 CSDN博客!⭐⭐本文首发CSDN论坛,未经过官方和本人允许,严禁转载!数据仓库的定义?首先,用于支持决策,面向分析型数据处理;其次,对多个异构的数据源有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。数据仓库(Data Warehouse)是一个面向主题的(subject o..原创 2021-06-20 20:29:37 · 889 阅读 · 0 评论 -
大数据面试通关手册|Hbase面试题(二)
⭐⭐欢迎关注博客主页:https://blog.csdn.net/u013411339⭐⭐欢迎点赞 👍 收藏 ⭐留言 📝 ,欢迎留言交流!⭐⭐本文由【王知无】原创,首发于 CSDN博客!⭐⭐本文首发CSDN论坛,未经过官方和本人允许,严禁转载!技术背景起源于谷歌旧三篇论文中bigtable。设计目的为了解决大数据环境中海量结构化数据的实时读写问题。为了弥补hadoop生态中没有实时存储的缺陷。设计思想分布式技术本质 概念:分布式列存储nosql数据库 解..原创 2021-06-24 08:30:00 · 579 阅读 · 0 评论 -
大数据面试通关手册 | 数据仓库&数据指标&数据治理面试(三)
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源留个微信,朋友圈实时更新最新大数据领域动态。好友位有限,速来。数据仓库的基本概念数据仓库概念英文名称为Data Warehouse...原创 2021-05-26 08:30:00 · 1922 阅读 · 1 评论 -
大数据面试通关手册 | Hive面试题之4万字基础调优面试小总结
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源本文基本涵盖以下内容:一、基于Hadoop的数据仓库Hive基础知识二、HiveSQL语法三、Hive性能优化四、Hive性能优化...原创 2021-05-23 18:03:51 · 1015 阅读 · 0 评论 -
大数据面试通关手册 | ClickHouse基础&实践&调优全视角解析
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源我们在之前的文章中提到过ClickHouse:《腾讯基于Flink+ClickHouse的实时数据系统实践》《来自俄罗斯的凶猛彪悍...原创 2021-06-09 08:15:00 · 2040 阅读 · 0 评论 -
大数据面试通关手册 | 数据仓库体系建模&实施&注意事项面试题
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源什么是数仓从字面上来看,数据仓库就是一个存放数据的仓库,它里面存放了各种各样的数据,而这些数据需要按照一些结构、规则来组织和存放。...原创 2021-06-06 21:15:11 · 625 阅读 · 0 评论 -
大数据面试通关手册 | Presto原理&调优&面试&实战
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源很久之前,曾经写过一篇 《Presto在大数据领域的实践和探索》。文中详细讲解了Presto的原理和应用。今天这篇文章是升级版本...原创 2021-06-17 08:20:00 · 725 阅读 · 0 评论 -
大数据面试通关手册|Hbase面试题(一)
⭐⭐欢迎关注博客主页:https://blog.csdn.net/u013411339⭐⭐欢迎点赞 👍 收藏 ⭐留言 📝 ,欢迎留言交流!⭐⭐本文由【王知无】原创,首发于 CSDN博客!⭐⭐本文首发CSDN论坛,未经过官方和本人允许,严禁转载!1.Hbase调优HBase高可用在HBase中Hmaster负责监控RegionServer的生命周期,均衡RegionServer的负载,如果Hmaster挂掉了,那么整个HBase集群将陷入不健康的状态,此时的工作状态并不会维持太久。所以需要配置.原创 2021-06-19 12:44:11 · 476 阅读 · 0 评论 -
大数据面试通关手册|Spark面试题(四)
⭐⭐欢迎关注博客主页:https://blog.csdn.net/u013411339⭐⭐欢迎点赞 👍 收藏 ⭐留言 📝 ,欢迎留言交流!⭐⭐本文由【王知无】原创,首发于 CSDN博客!⭐⭐本文首发CSDN论坛,未经过官方和本人允许,严禁转载!1、spark的有几种部署模式,每种模式特点?1)本地模式 Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地,一般都是为了方便调试,本地模式分三类 local:只启动一..原创 2021-06-04 08:30:00 · 566 阅读 · 0 评论 -
大数据面试通关手册|Spark面试题(三)
⭐⭐欢迎关注博客主页:https://blog.csdn.net/u013411339⭐⭐欢迎点赞 👍 收藏 ⭐留言 📝 ,欢迎留言交流!⭐⭐本文由【王知无】原创,首发于 CSDN博客!⭐⭐本文首发CSDN论坛,未经过官方和本人允许,严禁转载!39. Spark的UDF?因为目前 Spark SQL 本身支持的函数有限,一些常用的函数都没有,比如 len, concat...etc 但是使用 UDF 来自己实现根据业务需要的功能是非常方便的。Spark SQL UDF 其实是一个 Scal..原创 2019-09-01 00:00:00 · 1701 阅读 · 0 评论 -
大数据面试通关手册|Spark面试题(二)
⭐⭐欢迎关注博客主页:https://blog.csdn.net/u013411339⭐⭐欢迎点赞 👍 收藏 ⭐留言 📝 ,欢迎留言交流!⭐⭐本文由【王知无】原创,首发于 CSDN博客!⭐⭐本文首发CSDN论坛,未经过官方和本人允许,严禁转载!1. Spark消费 Kafka,分布式的情况下,如何保证消息的顺序?Kafka 分布式的单位是 Partition。如何保证消息有序,需要分几个情况讨论。 同一个 Partition 用一个 write ahead log 组织,所以可以..原创 2019-08-31 14:16:18 · 2012 阅读 · 1 评论 -
大数据面试通关手册|数据仓库面试题(三)
⭐⭐欢迎关注博客主页:https://blog.csdn.net/u013411339⭐⭐欢迎点赞 👍 收藏 ⭐留言 📝 ,欢迎留言交流!⭐⭐本文由【王知无】原创,首发于 CSDN博客!⭐⭐本文首发CSDN论坛,未经过官方和本人允许,严禁转载!38.数据质量,元数据管理,指标体系建设,数据驱动数据质量基本概念数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控.原创 2021-06-19 12:35:38 · 487 阅读 · 0 评论 -
大数据面试通关手册|数据仓库面试题(二)
26.全量表(df),增量表(di),追加表(da),拉链表(dz)的区别及使用场景全量表:每天的所有的最新状态的数据。1、全量表,有无变化,都要报;2、每次上报的数据都是所有的数据(变化的 + 没有变化的)9月10号全量抽取到ods层create table wedw_ods.order_info_20200910( order_id string COMMENT '订单id',order_status string COMMENT '订单状态',create_time原创 2021-06-19 12:30:04 · 801 阅读 · 0 评论 -
大数据面试通关手册|Hadoop面试题(一)
1、Flume使用场景线上数据一般主要是落地(存储到磁盘)或者通过socket传输给另外一个系统,这种情况下,你很难推动线上应用或服务去修改接口,实现直接向kafka里写数据,这时候你可能就需要flume这样的系统帮你去做传输。2、Flume丢包问题单机upd的flume source的配置,100+M/s数据量,10w qps flume就开始大量丢包,因此很多公司在搭建系统时,抛弃了Flume,自己研发传输系统,但是往往会参考Flume的Source-Channel-Sink模式。一些公司在Fl原创 2021-06-19 12:26:08 · 419 阅读 · 0 评论 -
大数据面试通关手册|数据仓库面试题(一)
1.维表和宽表的考查(主要考察维表的使用及维度退化手法)维表数据一般根据ods层数据加工生成,在设计宽表的时候,可以适当的用一些维度退化手法,将维度退化到事实表中,减少事实表和维表的关联2.数仓表命名规范通用规范表名、字段名采用下划线分隔词根(consultorder->consult_order) 每部分使用小写英文单词,属于通用字段的必须满足通用字段信息的定义。 表名、字段名需以字母为开头。 表名、字段名最长不超过64个英文字符。 优先使用词根中已有关键字(数仓标准配...原创 2021-05-30 15:54:21 · 1055 阅读 · 2 评论 -
大数据面试通关手册|Hive面试题(一)
1111原创 2021-05-30 12:04:39 · 475 阅读 · 0 评论 -
大数据面试通关手册|Flink面试题(一)
⭐⭐欢迎关注博客主页:https://blog.csdn.net/u013411339⭐⭐欢迎点赞 👍 收藏 ⭐留言 📝 ,欢迎留言交流!⭐⭐本文由【王知无】原创,首发于 CSDN博客!⭐⭐本文首发CSDN论坛,未经过官方和本人允许,严禁转载!FlinkFlink 的容错机制(checkpoint) Flink checkpoint与 Spark Flink 有什么区别或优势吗 Flink 中的 Time 有哪几种 对于迟到数据是怎么处理的 Flink 的运行必须依赖 Hadoop组.原创 2021-05-30 11:03:34 · 677 阅读 · 0 评论 -
大数据面试通关手册|Spark面试题(一)
⭐⭐欢迎关注博客主页:https://blog.csdn.net/u013411339⭐⭐欢迎点赞 👍 收藏 ⭐留言 📝 ,欢迎留言交流!⭐⭐本文由【王知无】原创,首发于 CSDN博客!⭐⭐本文首发CSDN论坛,未经过官方和本人允许,严禁转载!Spark通常来说,Spark与MapReduce相比,Spark运行效率更高。请说明效率更高来源于Spark内置的哪些机制? hadoop和spark使用场景? spark如何保证宕机迅速恢复? hadoop和spark的相同点和不同点? R.原创 2021-05-30 11:01:53 · 2506 阅读 · 0 评论 -
大数据面试通关手册|Hbase面试题(二)
1.Hbase调优2.hbase的rowkey怎么创建好?列族怎么创建比较好?3.hbase过滤器实现用途4.HBase宕机如何处理5.hive跟hbase的区别是?6.hbase写流程7.hbase读流程8.hbase数据flush过程9.数据合并过程10.Hmaster和Hgionserver职责11.HBase列族和region的关系?12.请简述Hbase的物理模型是什么13.请问如果使用Hbase做即席查询,如何设计二级索引14.如何避免读、写H原创 2021-05-30 10:59:11 · 412 阅读 · 0 评论 -
大数据面试通关手册|Hive面试题(二)
1.大表join小表产生的问题,怎么解决?2.udf udaf udtf区别3.hive有哪些保存元数据的方式,个有什么特点。4.hive内部表和外部表的区别6.insert into 和 override write区别?7.hive的判断函数有哪些8.简单描述一下HIVE的功能?用hive创建表几种方式?hive表有几种?9.线上业务每天产生的业务日志(压缩后>=3G),每天需要加载到hive的log表中,将每天产生的业务日志在压缩之后load到hive的log表时..原创 2021-05-30 10:58:37 · 476 阅读 · 1 评论 -
大数据面试通关手册|Kafka面试题整理(二)
1、请说明什么是Apache Kafka?Apache Kafka是由Apache开发的一种发布订阅消息系统,它是一个分布式的、分区的和重复的日志服务。2、请说明什么是传统的消息传递方法?传统的消息传递方法包括两种:队列:在队列中,一组用户可以从服务器中读取消息,每条消息都发送给其中一个人。发布-订阅:在这个模型中,消息被广播给所有的用户。3、请说明Kafka相对于传统的消息传递方法有什么优势?高性能:单一的Kafka代理可以处理成千上万的客户端,每秒处理数兆字节的读..原创 2021-05-30 10:57:40 · 384 阅读 · 0 评论 -
大数据面试通关手册|Kafka面试题总结(一)
1、Kafka 都有哪些特点?高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition, consumer group 对partition进行consume操作。可扩展性:kafka集群支持热扩展持久性、可靠性:消息被持久化到本地磁盘,并且支持数据备份防止数据丢失容错性:允许集群中节点失败(若副本数量为n,则允许n-1个节点失败)高并发:支持数千个客户端同时读写2、请简述下你在哪些场景下会选择 Kafka?日志收集原创 2021-05-30 10:56:47 · 416 阅读 · 0 评论 -
大数据面试通关手册|Zookeeper面试题总结
⭐⭐欢迎关注博客主页:https://blog.csdn.net/u013411339⭐⭐欢迎点赞 👍 收藏 ⭐留言 📝 ,欢迎留言交流!⭐⭐本文由【王知无】原创,首发于 CSDN博客!⭐⭐本文首发CSDN论坛,未经过官方和本人允许,严禁转载!1、请简述Zookeeper的选举机制假设有五台服务器组成的zookeeper集群,它们的id从1-5,同时它们都是最新启动的,也就是没有历史数据,在存放数据量这一点上,都是一样的。假设这些服务器依序启动,来看看会发生什么。(1)服.原创 2021-05-30 10:54:56 · 410 阅读 · 0 评论 -
大数据面试通关手册|Flume面试题汇总
⭐⭐欢迎关注博客主页:https://blog.csdn.net/u013411339⭐⭐欢迎点赞 👍 收藏 ⭐留言 📝 ,欢迎留言交流!⭐⭐本文由【王知无】原创,首发于 CSDN博客!⭐⭐本文首发CSDN论坛,未经过官方和本人允许,严禁转载!1、Flume使用场景线上数据一般主要是落地(存储到磁盘)或者通过socket传输给另外一个系统,这种情况下,你很难推动线上应用或服务去修改接口,实现直接向kafka里写数据,这时候你可能就需要flume这样的系统帮你去做传输。2、Flume丢.原创 2021-05-30 10:50:10 · 351 阅读 · 0 评论 -
大数据面试通关手册|Hadoop面试系列之优化
⭐⭐欢迎关注博客主页:https://blog.csdn.net/u013411339⭐⭐欢迎点赞 👍 收藏 ⭐留言 📝 ,欢迎留言交流!⭐⭐本文由【王知无】原创,首发于 CSDN博客!⭐⭐本文首发CSDN论坛,未经过官方和本人允许,严禁转载!1、MapReduce跑得慢的原因?Mapreduce 程序效率的瓶颈在于两点:1)计算机性能CPU、内存、磁盘健康、网络2)I/O 操作优化(1)数据倾斜(2)map和reduce数设置不合理(3)reduce等待过久(.原创 2021-05-30 10:43:53 · 402 阅读 · 0 评论 -
大数据面试通关手册|Hadoop系列之YARN
⭐⭐欢迎关注博客主页:https://blog.csdn.net/u013411339⭐⭐欢迎点赞 👍 收藏 ⭐留言 📝 ,欢迎留言交流!⭐⭐本文由【王知无】原创,首发于 CSDN博客!⭐⭐本文首发CSDN论坛,未经过官方和本人允许,严禁转载!1、简述hadoop1与hadoop2 的架构异同1)加入了yarn解决了资源调度的问题。2)加入了对zookeeper的支持实现比较可靠的高可用。2、为什么会产生 yarn,它解决了什么问题,有什么优势?1)Yarn最主要的功能就是解决运.原创 2021-05-30 10:43:09 · 417 阅读 · 0 评论 -
大数据面试通关手册|Hadoop系列之MapReduce
1、谈谈 Hadoop 序列化和反序列化及自定义 bean 对象实现序列化?1)序列化和反序列化(1)序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。(2)反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。(3)Java 的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,header,继承体系等),不便于在网络中高效传输。...原创 2021-05-30 10:41:50 · 366 阅读 · 0 评论 -
大数据面试通关手册| Hadoop面试题总结之HDFS
1、 HDFS 中的 block 默认保存几份?默认保存3份2、HDFS 默认 BlockSize 是多大?从2.7.3版本开始,官方关于Data Blocks 的说明中,block size由64 MB变成了128 MB的。3、负责HDFS数据存储的是哪一部分?DataNode负责数据存储4、SecondaryNameNode的目的是什么?他的目的使帮助NameNode合并编辑日志,减少NameNode 启动时间5、文件大小设置,增大有什么影响?HDFS中的文件在物理上原创 2021-05-30 10:36:28 · 479 阅读 · 0 评论 -
大数据面试通关手册 | Hadoop面试题(一)
⭐⭐欢迎关注博客主页:https://blog.csdn.net/u013411339⭐⭐欢迎点赞 👍 收藏 ⭐留言 📝 ,欢迎留言交流!⭐⭐本文由【王知无】原创,首发于 CSDN博客!⭐⭐本文首发CSDN论坛,未经过官方和本人允许,严禁转载!1、集群的最主要瓶颈磁盘IO2、Hadoop运行模式单机版、伪分布式模式、完全分布式模式3、Hadoop生态圈的组件并做简要描述1)Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务,配置维.原创 2021-05-30 10:32:41 · 601 阅读 · 1 评论