不上班行不行啊-CSDN博客

原创 hive group by 和 distinct

避免使用count distinct ,容易引起性能问题select distinct(user_id) from a ;由于必须去重，因此Hive会把map阶段的输出全部分布到一个reduce task中，容易引起性能问题，可以通过先group by ,再count得方式进行优化优化后：select count(*)from(select user_id from a group by user_id)tmp...

2022-05-19 14:12:23 439

原创（转）顺丰大数据校招面试

1、自我介绍2、问了项目，仔仔细细的问了项目，有多细问多细3、根据项目问了很多问题，为什么使用flume，只用kafka也能完成你们这个项目我一下蒙圈了，因为从来没有想过这个问题，为什么用flume，因为大数据相关的都在用flume，所以我们也用了，这是大家用的就是没有错的啊，但是我回答了一些好像面试官都不太满意，还在说为什么用flume，怎么不直接用kafka，我和他极限拉扯了几波，然后这个问题过去了4、flink和storm的区别我说没用过store，我说说flink和spark s

2022-05-19 13:59:10 486

原创 namenode功能与作用机制

namenode作用与机制作为整个HDFS集群和文件系统的管理者，namenode的功能主要可总结为以下四点1、管理HDFS的命名空间，并以fsimage进行持久化保存。HDFS命名空间即文件目录树及其目录与文件的元数据，为了处理的高效性，namenode会在内存中维护这部分元数据，同时为了安全性，也需要将这些数据永久化到磁盘中，具体则是通过fsimage和edits两个文件进行实现fsimage 是命名空间镜像文件，是文件系统元数据的完整的永久检查点，可理解为文件系统的存档或者快照，由于文件系统往

2021-12-07 07:01:27 6618

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 hive group by 和 distinct

原创 （转）顺丰大数据校招面试

原创 namenode功能与作用机制

空空如也

空空如也

原创（转）顺丰大数据校招面试