- 自我介绍 20-30s,先准备好
- 大数据架构,如何做到精准一次,小文件规避(hadoop元数据存储,读写流程),不要把东西落到具体的业务
- hdfs里面的路径占不占meta的内存? 占,不同版本不一样 小文件会产生什么样的问题?有什么影响?
- yarn的工作流程
- spark运行模式 local local* local[2] , client和cluster的区别
- yarn的调度有几种?申请的资源不够,该怎么处理?
- spark用什么版本?(2.1)
- HDFS高可用采用的哪种?NN落盘的两个文件叫什么?主备NN实现高可用的流程?
- NN内存管理
- HDFS BLOCK
- hdfs上查看目录文件数和空间大小
- scala left和right的区别
- java多线程的锁有哪些?
- 对hadoop架构 广义狭义 nn dn(27min,小文件原因以及如何处理)
- hadoop1和2的区别(1里面没有yarn,1里面都是单点故障,单点生产上不能用)
- 生产上用的文件格式和压缩
- yarn如何保障高可用,挂了后未完成的作业怎么处理?
- 数据倾斜的场景和解决方案
- hive哪些欸操作可以触发mr,哪些不可以? (简单的查询,select之类不触发;聚合一定触发)
- hive触发mr的视频(视频)
- RDD的五个特性(腾讯课堂)
- 生产中的数据量
- spark的隐式转换和使用
- 封装继承多态
- jvm运行时的数据区域
- hive与关系型数据库的区别
- hadoop优点和调优点(调优点对mr来说的,小文件)
- hive分桶(对哪个字段进行分桶)
- 集群规模(自己整理下,10字节 * 天数 * 副本数 = xxx ;xxx*n个业务线 = 。。。 N台)
- hive与hdfs的关系
- inode和文件描述符(没讲过,自己查)
- hive实现原理
- jvm垃圾回收
- hive和关系型数据库的区别
- spark和mr的区别
- 二叉树的数据结构
- join怎么优化
- hive能加索引吗