自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 hive group by 和 distinct

避免使用count distinct ,容易引起性能问题select distinct(user_id) from a ;由于必须去重,因此Hive会把map阶段的输出全部分布到一个reduce task中,容易引起性能问题,可以通过先group by ,再count得方式进行优化优化后:select count(*)from(select user_id from a group by user_id)tmp...

2022-05-19 14:12:23 439

原创 (转)顺丰大数据校招面试

1、自我介绍2、问了项目,仔仔细细的问了项目,有多细问多细3、根据项目问了很多问题,为什么使用flume,只用kafka也能完成你们这个项目我一下蒙圈了,因为从来没有想过这个问题,为什么用flume,因为大数据相关的都在用flume,所以我们也用了,这是大家用的就是没有错的啊,但是我回答了一些好像面试官都不太满意,还在说为什么用flume,怎么不直接用kafka,我和他极限拉扯了几波,然后这个问题过去了4、flink和storm的区别我说没用过store,我说说flink和spark s

2022-05-19 13:59:10 486

原创 namenode功能与作用机制

namenode作用与机制作为整个HDFS集群和文件系统的管理者,namenode的功能主要可总结为以下四点1、管理HDFS的命名空间,并以fsimage进行持久化保存。HDFS命名空间即文件目录树及其目录与文件的元数据,为了处理的高效性,namenode会在内存中维护这部分元数据,同时为了安全性,也需要将这些数据永久化到磁盘中,具体则是通过fsimage和edits两个文件进行实现fsimage 是命名空间镜像文件,是文件系统元数据的完整的永久检查点,可理解为文件系统的存档或者快照,由于文件系统往

2021-12-07 07:01:27 6618

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除