- 博客(3)
- 收藏
- 关注
原创 hive group by 和 distinct
避免使用count distinct ,容易引起性能问题select distinct(user_id) from a ;由于必须去重,因此Hive会把map阶段的输出全部分布到一个reduce task中,容易引起性能问题,可以通过先group by ,再count得方式进行优化优化后:select count(*)from(select user_id from a group by user_id)tmp...
2022-05-19 14:12:23
439
原创 (转)顺丰大数据校招面试
1、自我介绍2、问了项目,仔仔细细的问了项目,有多细问多细3、根据项目问了很多问题,为什么使用flume,只用kafka也能完成你们这个项目我一下蒙圈了,因为从来没有想过这个问题,为什么用flume,因为大数据相关的都在用flume,所以我们也用了,这是大家用的就是没有错的啊,但是我回答了一些好像面试官都不太满意,还在说为什么用flume,怎么不直接用kafka,我和他极限拉扯了几波,然后这个问题过去了4、flink和storm的区别我说没用过store,我说说flink和spark s
2022-05-19 13:59:10
486
原创 namenode功能与作用机制
namenode作用与机制作为整个HDFS集群和文件系统的管理者,namenode的功能主要可总结为以下四点1、管理HDFS的命名空间,并以fsimage进行持久化保存。HDFS命名空间即文件目录树及其目录与文件的元数据,为了处理的高效性,namenode会在内存中维护这部分元数据,同时为了安全性,也需要将这些数据永久化到磁盘中,具体则是通过fsimage和edits两个文件进行实现fsimage 是命名空间镜像文件,是文件系统元数据的完整的永久检查点,可理解为文件系统的存档或者快照,由于文件系统往
2021-12-07 07:01:27
6618
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅