- 结合课程内容、学习情况、学生面试情况。想了一些大数据相关的问题。供参考。
- 2018年11月27日08:28:40 更新
#zookeeper&hadoop
- 公司部署了几台zookeeper
- 公司部署了几台hadoop?
- 怎么确定需要几台hadoop?
- 写过shell脚本没有?什么场景写了shell?
- 公司什么项目用到大数据,为什么要用大数据?
- 你们公司数据库量多大?
- nameNode机子的内存和磁盘多大?dataNode的内存和磁盘多大?
#项目问题
*.你做过哪些项目?
#任何大数据项目都需要考虑的问题
- 是否存在大量数据,大量的数据具有什么价值?
- 数据量有多大?
- 项目将会用到哪些大数据技术?
- 项目数据怎么产生?
- 项目数据怎么采集?
- 项目数据采集到的是什么样数据?
- 项目数据采集之后存储在哪里?
- 项目如何使用采集到的数据?
#hadoop-hdfs
- 项目数据怎么上传到hdfs?
- 项目数据上传到hdfs要花多长时间?
- HDFS 上传文件有没有遇到什么问题?
- 如何实现文件定时上传到hdfs?
- 需要上传很多小文件到hdfs怎么处理?
- 谈谈你对hdfs的理解?
- 简单说说hdfs的读写流程?
- 你们如何保证hadoop的稳定性?
- 有没有遇到上传文件很慢的问题?
- 如何保证不同机器之间的磁盘利用率平衡?
#hadoop-mr
- 公司几个NameNode结点,几个DataNode?
- 写过mr程序没有?
1.你的mr程序大概多少个map,多少个reduce?
2.你的mr程序负责做什么事情?
3.你的mr程序写了多久?
4.你的mr程序怎么去执行执行? - mr程序,运行有几种模式?
- Partitioner分区原理是怎样的?
- Mapper任务的执行流程是怎样的?
- Reducer任务的执行流程是怎样的?
- 说说MapReduce自定义数据类型?
- 说说WritableComparable和Writable两个接口的区别?
- 你所了解的MapReduce中的常见算法有哪些?
- 说说mr的combiner组件?
- 说说MapReduce中分片、分区、排序?
- Mapreduce整体过程分为几个阶段?分别是什么?
#hadoop
*.说说hadoop的分片,分区的概念
*.如何监控hadoop
#Flume
- 你们的数据采集用到了flume吗?怎么使用的?
- flume的核心角色agent包含哪些部分(组件)?
- flume的Source可以有哪些种类,项目中用的哪个?
- flume的channel可以有哪些种类,项目中用的哪个?
- flume的sink可以有哪些种类,项目中用的哪个?
- flume采集遇到过什么问题?
- 工作中哪些项目用到了flume,分别的source,channel,sink是什么?
- 你说知道的flume常见应用场景有哪些?
- 说说flume的高可用?工作中有没有这样使用?
- 说说flume的负载均衡?工作中有没有这样使用?
- 说说flume自定义拦截器?工作中有实际应用过吗?
#Hive - 简单说说数据仓库和数据库的理解?
- 数据仓库的数据可以从哪里来?
- 你觉得数据仓库有什么好处?
- 说说你对hive的理解?
- 操作型系统和分析型系统的区别?
分析型系统更加注重数据分析和报表,而操作型系统的目标是一个伴有大量数据改变的事务优化系统。 - 设计分析型数据库时应该考虑哪些问题?
- 谈谈你对ETL的理解?
- 数据仓库和数据集市的区别?
- 数据集市组织数据的两种模型?
- 你们项目数据集市组织数据用的什么模型?事实表包含了多少个索引?
- 全量抽取和增量抽取的区别?你们项目用的什么抽取方式?
- 什么是维度速度模型?
- hive 数据倾斜怎么解决?
- 使用hive遇到过什么问题?
- hive有几种存储格式,大概区别是什么?
- hive 和mysql的区别?
- hive的分区和分桶的区别?
- hive的内部表和外部表的选择?
- hive什么时候用内部表?什么时候用外部表?
- hive导入数据有几种形式?
- hive导出数据有几种形式?
#kafka
- 说说kafka分片副本机制?
- kafka如何保证消息不丢失?
- kafka你在工作中遇到什么问题?
- kafka重复消费问题?
- kafka有哪些特性?
- kafka为什么那么快?