大数据面试题

  1. HDFS的架构
  2. HDFS的读写流程
    3.小文件过多有什么危害,你知道的解决办法有哪些
  3. Secondary NameNode 了解吗,它的工作机制是怎样的
  4. 简述MapReduce整个流程
  5. join原理
  6. yarn 的任务提交流程是怎样的
  7. 简述Hadoop1.0 2.0 3.0区别
  8. 简述什么是CAP理论,zookeeper满足CAP的哪两个
  9. zookeeper集群的节点数为什么建议奇数台
  10. Paxos算法
  11. Zab协议
  12. 简述flume基础架构
  13. 请说一下你提到的几种source的不同点
  14. flume采集数据会丢失吗
  15. 简述kafka的架构
  16. 简述kafka的分区策略
  17. kafka是如何保证数据不丢失和数据不重复
  18. kafka中的数据是有序的吗,如何保证有序的呢
  19. 简述kafka消息的存储机制
  20. kafka的数据是放在磁盘上还是内存上,为什么速度会快
  21. kafka消费方式
  22. HBase和hive的区别
  23. 简述HBase的读写流程
  24. HBase在写过程中的region的split时机
  25. HBase 中 compact 用途是什么,什么时候触发,分为哪两种,有什么区别
  26. 热点现象怎么产生的,以及解决方法有哪些
  27. 说一下HBase 的 rowkey 设计原则
  28. 简述hive
  29. hive和传统数据库之间的区别
  30. hive的内部表和外部表的区别
  31. hive的join底层实现
  32. Order By和Sort By的区别
  33. 行转列和列转行函数
  34. 自定义过UDF、UDTF函数吗
  35. hive小文件过多怎么办
  36. Hive优化
  37. 简述hadoop 和 spark 的不同点(为什么spark更快)
  38. 简述spark的shuffle过程
  39. spark的作业运行流程是怎么样的
  40. 你知道Application、Job、Stage、Task他们之间的关系吗
  41. Spark常见的算子介绍一下(10个以上)
  42. 简述groupByKey和reduceByKey的区别
  43. 宽依赖和窄依赖之间的区别
  44. spark为什么需要RDD持久化,持久化的方式有哪几种,他们之间的区别是什么
  45. spark调优
  46. sparksql的三种join实现
  47. 简单介绍下sparkstreaming
  48. 简述SparkStreaming窗口函数的原理
  49. 简单介绍一下Flink
  50. Flink和SparkStreaming区别
  51. 简述Flink运行流程(基于Yarn)
  52. Connect算子和Union算子的区别
  53. Flink的时间语义有哪几种 *
  54. 谈一谈你对watermark的理解
  55. Flink对于迟到或者乱序数据是怎么处理的
  56. Flink中,有哪几种类型的状态,你知道状态后端吗
  57. Flink 是如何保证 Exactly-once 语义的
  58. java的深拷贝和浅拷贝的区别
  59. java中==和equals的区别
  60. String和StringBuffer、StringBuilder的区别
  61. 简述面向对象三大特征
  62. java中方法重载和重写的区别
  63. 集合之间的继承关系
  64. ArrayList和LinkedList区别
  65. ArrayList扩容过程
  66. HashMap底层实现
  67. HashMap扩容过程
  68. ConcurrentHashMap原理
  69. java反射机制
  70. 异常体系
  71. 设计模式
  72. JVM一个类的加载过程
  73. JVM内存结构
  74. JVM中的垃圾回收算法
  75. JVM垃圾收集器
  76. java实现多线程有几种方式
  77. 线程池相关内容
  78. synchronized 的原理
  79. OSI七层模型
  80. TCP连接管理
  81. TCP是如何做到可靠传输的
  82. TCP和UDP的区别
  83. 浏览器输入URL到显示页面的过程
  84. 进程和线程的区别
  85. 什么是死锁以及死锁的四个条件
  86. 页面置换算法
  87. mysql的索引结构
  88. 简述事务
  89. 数据库事务并发会引发哪些问题
  90. 事务的四个隔离级别有哪些
  91. MVCC讲一下(怎么实现)
  92. 为什么要对数据仓库分层
  93. 数据仓库建模的方法有哪些
  94. 维度建模有哪几种模型
  95. 维度建模中表的类型
  96. 事实表的设计过程
  97. 同时在线问题
  98. 最大连续登陆的最大天数问题
  99. 留存问题
    101.数据倾斜
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一凡888

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值