大数据-面试问题大全-持续更新

最新推荐文章于 2024-08-16 12:21:18 发布

billycoder

最新推荐文章于 2024-08-16 12:21:18 发布

阅读量642

点赞数

分类专栏：面试-javaEE

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/billycoder/article/details/88940112

版权

面试-javaEE 专栏收录该内容

22 篇文章 1 订阅

订阅专栏

结合课程内容、学习情况、学生面试情况。想了一些大数据相关的问题。供参考。
2018年11月27日08:28:40 更新

#zookeeper&hadoop

公司部署了几台zookeeper
公司部署了几台hadoop?
怎么确定需要几台hadoop?
写过shell脚本没有?什么场景写了shell?
公司什么项目用到大数据,为什么要用大数据?
你们公司数据库量多大?
nameNode机子的内存和磁盘多大?dataNode的内存和磁盘多大?

#项目问题
*.你做过哪些项目?

#任何大数据项目都需要考虑的问题

是否存在大量数据,大量的数据具有什么价值?
数据量有多大?
项目将会用到哪些大数据技术?
项目数据怎么产生?
项目数据怎么采集?
项目数据采集到的是什么样数据?
项目数据采集之后存储在哪里?
项目如何使用采集到的数据?

#hadoop-hdfs

项目数据怎么上传到hdfs?
项目数据上传到hdfs要花多长时间?
HDFS 上传文件有没有遇到什么问题?
如何实现文件定时上传到hdfs?
需要上传很多小文件到hdfs怎么处理?
谈谈你对hdfs的理解?
简单说说hdfs的读写流程?
你们如何保证hadoop的稳定性?
有没有遇到上传文件很慢的问题?
如何保证不同机器之间的磁盘利用率平衡?

#hadoop-mr

公司几个NameNode结点,几个DataNode?
写过mr程序没有?
1.你的mr程序大概多少个map,多少个reduce?
2.你的mr程序负责做什么事情?
3.你的mr程序写了多久?
4.你的mr程序怎么去执行执行?
mr程序,运行有几种模式?
Partitioner分区原理是怎样的?
Mapper任务的执行流程是怎样的?
Reducer任务的执行流程是怎样的?
说说MapReduce自定义数据类型?
说说WritableComparable和Writable两个接口的区别?
你所了解的MapReduce中的常见算法有哪些?
说说mr的combiner组件?
说说MapReduce中分片、分区、排序？
Mapreduce整体过程分为几个阶段？分别是什么？

#hadoop
*.说说hadoop的分片,分区的概念
*.如何监控hadoop

#Flume

你们的数据采集用到了flume吗？怎么使用的？
flume的核心角色agent包含哪些部分（组件）？
flume的Source可以有哪些种类,项目中用的哪个?
flume的channel可以有哪些种类,项目中用的哪个?
flume的sink可以有哪些种类,项目中用的哪个?
flume采集遇到过什么问题?
工作中哪些项目用到了flume,分别的source,channel,sink是什么?
你说知道的flume常见应用场景有哪些?
说说flume的高可用?工作中有没有这样使用?
说说flume的负载均衡?工作中有没有这样使用?
说说flume自定义拦截器?工作中有实际应用过吗?
#Hive
简单说说数据仓库和数据库的理解?
数据仓库的数据可以从哪里来?
你觉得数据仓库有什么好处?
说说你对hive的理解?
操作型系统和分析型系统的区别?
分析型系统更加注重数据分析和报表，而操作型系统的目标是一个伴有大量数据改变的事务优化系统。
设计分析型数据库时应该考虑哪些问题?
谈谈你对ETL的理解?
数据仓库和数据集市的区别?
数据集市组织数据的两种模型？
你们项目数据集市组织数据用的什么模型?事实表包含了多少个索引?
全量抽取和增量抽取的区别?你们项目用的什么抽取方式?
什么是维度速度模型?
hive 数据倾斜怎么解决?
使用hive遇到过什么问题?
hive有几种存储格式,大概区别是什么?
hive 和mysql的区别?
hive的分区和分桶的区别?
hive的内部表和外部表的选择?
hive什么时候用内部表?什么时候用外部表?
hive导入数据有几种形式?
hive导出数据有几种形式?

#kafka

说说kafka分片副本机制?
kafka如何保证消息不丢失?
kafka你在工作中遇到什么问题?
kafka重复消费问题?
kafka有哪些特性?
kafka为什么那么快?

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。