大数据面试题1

  1. 自我介绍 20-30s,先准备好
  2. 大数据架构,如何做到精准一次,小文件规避(hadoop元数据存储,读写流程),不要把东西落到具体的业务
  3. hdfs里面的路径占不占meta的内存? 占,不同版本不一样 小文件会产生什么样的问题?有什么影响?
  4. yarn的工作流程
  5. spark运行模式 local local* local[2] , client和cluster的区别
  6. yarn的调度有几种?申请的资源不够,该怎么处理?
  7. spark用什么版本?(2.1)
  8. HDFS高可用采用的哪种?NN落盘的两个文件叫什么?主备NN实现高可用的流程?
  9. NN内存管理
  10. HDFS BLOCK
  11. hdfs上查看目录文件数和空间大小
  12. scala left和right的区别
  13. java多线程的锁有哪些?

  1. 对hadoop架构 广义狭义 nn dn(27min,小文件原因以及如何处理)
  2. hadoop1和2的区别(1里面没有yarn,1里面都是单点故障,单点生产上不能用)
  3. 生产上用的文件格式和压缩
  4. yarn如何保障高可用,挂了后未完成的作业怎么处理?

  1. 数据倾斜的场景和解决方案
  2. hive哪些欸操作可以触发mr,哪些不可以? (简单的查询,select之类不触发;聚合一定触发)
  3. hive触发mr的视频(视频)
  4. RDD的五个特性(腾讯课堂)
  5. 生产中的数据量
  6. spark的隐式转换和使用

  1. 封装继承多态
  2. jvm运行时的数据区域
  3. hive与关系型数据库的区别
  4. hadoop优点和调优点(调优点对mr来说的,小文件)
  5. hive分桶(对哪个字段进行分桶)
  6. 集群规模(自己整理下,10字节 * 天数 * 副本数 = xxx ;xxx*n个业务线 = 。。。 N台)

  1. hive与hdfs的关系
  2. inode和文件描述符(没讲过,自己查)
  3. hive实现原理
  4. jvm垃圾回收
  5. hive和关系型数据库的区别
  6. spark和mr的区别

  1. 在这里插入图片描述
  2. 二叉树的数据结构
  3. join怎么优化
  4. hive能加索引吗
  5. 在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值