大数据面试题锦集

最新推荐文章于 2023-08-31 18:19:06 发布

Hdmtc123

最新推荐文章于 2023-08-31 18:19:06 发布

阅读量310

点赞数

分类专栏：面试题

面试题专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1、一个网络商城1天大概产生多少G的日志？

1-2TB

2、1天大概有多少条日志记录（在不清洗的情况下）？

1千万条

3、日访问量大概有多少个？

几十万个独立访客

4、注册数大概多少？不清楚几百万吧

5、我们的日志是不是除了apache的访问日志是不是还有其他的日志？

log4j日志

6、你们的服务器有多少台？

几十台

7、你们服务器的内存多大？

有的8G，有的16G

8、你们的服务器怎么分布的？（这里说地理位置分布，最好也从机架方面也谈谈，比如datanode服务器都放在同一个机架上，直接copy，速度快又节省网络传输）

9、你们的集群规模？

flume集群：6台

hadoop集群：17台

storm集群：3台

Spark集群：5台

hbase集群: 7台

kafka集群：5台

网安：2台

Mysql服务器：2台

其他：1台

10、你在项目中遇到了哪些难题，是怎么解决的？

某些任务执行时间过长，且失败率过高，检查日志后发现没有执行完就失败，原因出在hadoop的job的timeout过短（相对于集群的能力来说），设置长一点即可。

方案1：修改mapred-site.xml：

mapred.task.timeout 600000 可以改的更长！

方案2：根据业务需要手动set值（JAVA代码）：

conf.setLong(“mapred.task.timeout”, 900000L);

11、谈谈数据倾斜，如何发生的，并给出优化方案。
原因：
（1）key分布不均匀
（2）业务数据本身的特性
（3）建表时考虑不周
（4）某些SQL语句本身就有数据倾斜

map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据均匀的分配到各个reduce中，就是解决数据倾斜的根本所在。

12、你们hbase的行键怎么设计的

UUID前6位_time(10)_(1000+nextInt(10000)) （防止出现读写热点，因为rowkey默认方式是顺序增长）

例如：4346a1_2018-07-11_1268

nextInt(1000)为[0,1000）的整数

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
大数据面试题锦集

1、一个网络商城1天大概产生多少G的日志？1-2TB2、1天大概有多少条日志记录（在不清洗的情况下）？1千万条3、日访问量大概有多少个？几十万个独立访客4、注册数大概多少？不清楚几百万吧5、我们的日志是不是除了apache的访问日志是不是还有其他的日志？log4j日志6、你们的服务器有多少台？几十台7、你们服务器的内存多大？有的8G，有的16G8、你们的服务器怎么分布的？...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。