自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (1)
  • 收藏
  • 关注

原创 hive中3种求差集的效率

1、not exists–百万级:76244ms–千万级:211103ms----亿级:294836ms2、not in–百万级:196082ms–千万级:248450ms----亿级:305112ms3、left outer joinon t1.a= t2.aand t2.a is null–百万级:333372ms–千万级:348681ms----亿级:368529ms4、注意join能处理多字段的情况左右都求差集时用 full join...

2020-08-18 18:26:57 961

原创 hive 各种by相关的介绍

hive 各种by相关的介绍1、order byhive中的order by和传统sql中的order by 一样,会对数据做全局排序,加上排序,会新启动一个jod进行排序,会把所有数据放到同一个reduce中进行处理,不管数据多少,不管文件多少,都启用一个reduce进行处理。注意:(1):order by后面可以有多列进行排序,默认按字典排序(2):order by为全局排序(3):order by需要reduce操作,且只有一个reduce,无法配置(因为多个reduce无法完成全局排序

2020-08-18 18:13:59 580

原创 Hadoop Shuffle

一、大体流程Shuffle描述的是数据从Map端到Reduce端的过程,大致分为排序(sort)、溢写(spill)、合并(merge)、拉取拷贝(Copy)、合并排序(merge sort)这几个过程。二、Map端1、sortMap端的输出数据,先写环形缓存区kvbuffer,当环形缓冲区到达一个阀值(可以通过配置文件设置,默认80),便要开始溢写,但溢写之前会有一个sort操作,这个sort操作先把Kvbuffer中的数据按照partition值和key两个关键字来排序,..

2020-05-24 14:48:20 1312

原创 面试题

一、Linux1、内核2、进程通信3、Linux IO4、linux常用命令二、java1、类加载机制2、jvm内存管理3、GC4、jvm调优5、hashmap原理(红黑树)6、多线程7、高并发三、hadoop1、hadoop shuffle2、hive1、执行流程2、存储格式3、压缩算法4、不同存储格式和压缩算法下的对比5、hive行式存储和列式存储的区别6、hive仓..

2020-05-23 12:52:30 156

原创 Hadoop

Hadoop

2019-11-05 18:05:49 101

Spring:JdbcTemplate使用指南

Spring:JdbcTemplate使用指南

2015-06-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除