大数据面试题

最新推荐文章于 2024-07-11 16:53:39 发布

一凡888

最新推荐文章于 2024-07-11 16:53:39 发布

阅读量99

点赞数

文章标签：大数据数据库数据仓库数据分析数据可视化字节面试题

本文链接：https://blog.csdn.net/hellowowofei/article/details/133634437

版权

                    
                        
                    
                    HDFS的架构
HDFS的读写流程
 3.小文件过多有什么危害，你知道的解决办法有哪些
Secondary NameNode 了解吗，它的工作机制是怎样的
简述MapReduce整个流程
join原理
yarn 的任务提交流程是怎样的
简述Hadoop1.0 2.0 3.0区别
简述什么是CAP理论，zookeeper满足CAP的哪两个
zookeeper集群的节点数为什么建议奇数台
Paxos算法
Zab协议
简述flume基础架构
请说一下你提到的几种source的不同点
flume采集数据会丢失吗
简述kafka的架构
简述kafka的分区策略
kafka是如何保证数据不丢失和数据不重复
kafka中的数据是有序的吗，如何保证有序的呢
简述kafka消息的存储机制
kafka的数据是放在磁盘上还是内存上，为什么速度会快
kafka消费方式
HBase和hive的区别
简述HBase的读写流程
HBase在写过程中的region的split时机
HBase 中 compact 用途是什么，什么时候触发，分为哪两种，有什么区别
热点现象怎么产生的，以及解决方法有哪些
说一下HBase 的 rowkey 设计原则
简述hive
hive和传统数据库之间的区别
hive的内部表和外部表的区别
hive的join底层实现
Order By和Sort By的区别
行转列和列转行函数
自定义过UDF、UDTF函数吗
hive小文件过多怎么办
Hive优化
简述hadoop 和 spark 的不同点（为什么spark更快）
简述spark的shuffle过程
spark的作业运行流程是怎么样的
你知道Application、Job、Stage、Task他们之间的关系吗
Spark常见的算子介绍一下（10个以上）
简述groupByKey和reduceByKey的区别
宽依赖和窄依赖之间的区别
spark为什么需要RDD持久化，持久化的方式有哪几种，他们之间的区别是什么
spark调优
sparksql的三种join实现
简单介绍下sparkstreaming
简述SparkStreaming窗口函数的原理
简单介绍一下Flink
Flink和SparkStreaming区别
简述Flink运行流程（基于Yarn）
Connect算子和Union算子的区别
Flink的时间语义有哪几种 *
谈一谈你对watermark的理解
Flink对于迟到或者乱序数据是怎么处理的
Flink中，有哪几种类型的状态，你知道状态后端吗
Flink 是如何保证 Exactly-once 语义的
java的深拷贝和浅拷贝的区别
java中==和equals的区别
String和StringBuffer、StringBuilder的区别
简述面向对象三大特征
java中方法重载和重写的区别
集合之间的继承关系
ArrayList和LinkedList区别
ArrayList扩容过程
HashMap底层实现
HashMap扩容过程
ConcurrentHashMap原理
java反射机制
异常体系
设计模式
JVM一个类的加载过程
JVM内存结构
JVM中的垃圾回收算法
JVM垃圾收集器
java实现多线程有几种方式
线程池相关内容
synchronized 的原理
OSI七层模型
TCP连接管理
TCP是如何做到可靠传输的
TCP和UDP的区别
浏览器输入URL到显示页面的过程
进程和线程的区别
什么是死锁以及死锁的四个条件
页面置换算法
mysql的索引结构
简述事务
数据库事务并发会引发哪些问题
事务的四个隔离级别有哪些
MVCC讲一下（怎么实现）
为什么要对数据仓库分层
数据仓库建模的方法有哪些
维度建模有哪几种模型
维度建模中表的类型
事实表的设计过程
同时在线问题
最大连续登陆的最大天数问题
留存问题
 101.数据倾斜

                

一凡888

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
大数据面试题

HDFS的架构HDFS的读写流程3.小文件过多有什么危害，你知道的解决办法有哪些Secondary NameNode 了解吗，它的工作机制是怎样的简述MapReduce整个流程join原理yarn 的任务提交流程是怎样的简述Hadoop1.0 2.0 3.0区别简述什么是CAP理论，zookeeper满足CAP的哪两个zookeeper集群的节点数为什么建议奇数台Paxos算法Zab协议简述flume基础架构请说一下你提到的几种source的不同点flume采集数据会丢失吗简
复制链接

扫一扫