- HDFS的架构
- HDFS的读写流程
3.小文件过多有什么危害,你知道的解决办法有哪些 - Secondary NameNode 了解吗,它的工作机制是怎样的
- 简述MapReduce整个流程
- join原理
- yarn 的任务提交流程是怎样的
- 简述Hadoop1.0 2.0 3.0区别
- 简述什么是CAP理论,zookeeper满足CAP的哪两个
- zookeeper集群的节点数为什么建议奇数台
- Paxos算法
- Zab协议
- 简述flume基础架构
- 请说一下你提到的几种source的不同点
- flume采集数据会丢失吗
- 简述kafka的架构
- 简述kafka的分区策略
- kafka是如何保证数据不丢失和数据不重复
- kafka中的数据是有序的吗,如何保证有序的呢
- 简述kafka消息的存储机制
- kafka的数据是放在磁盘上还是内存上,为什么速度会快
- kafka消费方式
- HBase和hive的区别
- 简述HBase的读写流程
- HBase在写过程中的region的split时机
- HBase 中 compact 用途是什么,什么时候触发,分为哪两种,有什么区别
- 热点现象怎么产生的,以及解决方法有哪些
- 说一下HBase 的 rowkey 设计原则
- 简述hive
- hive和传统数据库之间的区别
- hive的内部表和外部表的区别
- hive的join底层实现
- Order By和Sort By的区别
- 行转列和列转行函数
- 自定义过UDF、UDTF函数吗
- hive小文件过多怎么办
- Hive优化
- 简述hadoop 和 spark 的不同点(为什么spark更快)
- 简述spark的shuffle过程
- spark的作业运行流程是怎么样的
- 你知道Application、Job、Stage、Task他们之间的关系吗
- Spark常见的算子介绍一下(10个以上)
- 简述groupByKey和reduceByKey的区别
- 宽依赖和窄依赖之间的区别
- spark为什么需要RDD持久化,持久化的方式有哪几种,他们之间的区别是什么
- spark调优
- sparksql的三种join实现
- 简单介绍下sparkstreaming
- 简述SparkStreaming窗口函数的原理
- 简单介绍一下Flink
- Flink和SparkStreaming区别
- 简述Flink运行流程(基于Yarn)
- Connect算子和Union算子的区别
- Flink的时间语义有哪几种 *
- 谈一谈你对watermark的理解
- Flink对于迟到或者乱序数据是怎么处理的
- Flink中,有哪几种类型的状态,你知道状态后端吗
- Flink 是如何保证 Exactly-once 语义的
- java的深拷贝和浅拷贝的区别
- java中==和equals的区别
- String和StringBuffer、StringBuilder的区别
- 简述面向对象三大特征
- java中方法重载和重写的区别
- 集合之间的继承关系
- ArrayList和LinkedList区别
- ArrayList扩容过程
- HashMap底层实现
- HashMap扩容过程
- ConcurrentHashMap原理
- java反射机制
- 异常体系
- 设计模式
- JVM一个类的加载过程
- JVM内存结构
- JVM中的垃圾回收算法
- JVM垃圾收集器
- java实现多线程有几种方式
- 线程池相关内容
- synchronized 的原理
- OSI七层模型
- TCP连接管理
- TCP是如何做到可靠传输的
- TCP和UDP的区别
- 浏览器输入URL到显示页面的过程
- 进程和线程的区别
- 什么是死锁以及死锁的四个条件
- 页面置换算法
- mysql的索引结构
- 简述事务
- 数据库事务并发会引发哪些问题
- 事务的四个隔离级别有哪些
- MVCC讲一下(怎么实现)
- 为什么要对数据仓库分层
- 数据仓库建模的方法有哪些
- 维度建模有哪几种模型
- 维度建模中表的类型
- 事实表的设计过程
- 同时在线问题
- 最大连续登陆的最大天数问题
- 留存问题
101.数据倾斜
大数据面试题
最新推荐文章于 2024-07-11 16:53:39 发布