自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 group by with cube

sqlserver group by with cubeCUBE运算符生成的结果集是多维数据集,多维数据集是事实数据的扩展,事实数据即记录个别时间的数据,扩展建立在用户准备分析的列上,这些列被称为维,多维数据集是一个结果集,其中包含各纬度所有可能的交叉表格.CUBE运算符是在Select语句的group by子句中指定的,group by应指定维度列和关键字with cube,结果集将包括维度...

2020-01-17 10:19:13 4537

原创 Hive 之collect_list/collect_set(列转行)

Hive笔记之collect_list/collect_set(列转行)Hive中collect相关的函数有collect_list和collect_set。它们都是将分组中的某列转为一个数组返回,不同的是collect_list不去重而collect_set去重。做简单的实验加深理解,创建一张实验用表,存放用户每天点播视频的记录:create table t_visit_video (...

2020-01-15 16:52:02 350

原创 hive之动态分区插入数据及其参数配置

hive使用动态分区插入数据详解往hive分区表中插入数据时,如果需要创建的分区很多,比如以表中某个字段进行分区存储,则需要复制粘贴修改很多sql去执行,效率低。因为hive是批处理系统,所以hive提供了一个动态分区功能,其可以基于查询参数的位置去推断分区的名称,从而建立分区。1.创建一个单一字段分区表create table dpartition(id int ,name string ...

2020-01-15 09:50:58 2285

原创 hive严格模式和非严格模式的区别

hive严格模式和非严格模式的区别hive严格模式 hive提供了一个严格模式,可以防止用户执行那些可能产生意想不到的不好的效果的查询。即某些查询在严格 模式下无法执行。1)带有分区的表的查询 如果在一个分区表执行hive,除非where语句中包含分区字段过滤条件来显示数据范围,否则不允许执行。换句话说, 就是用户不允许扫描所有的分区。进行这个限制的原因是,通常分区表...

2020-01-14 17:00:19 645

原创 hive排序:distribute by 、sort by 、cluster by 、order by 区别

hive排序:distribute by 、sort by 、cluster by 、order by 区别1). order by只有一个reduce负责对所有的数据进行排序,若大数据量,则需要较长的时间。建议在小的数据集中使用order by 进行排序。不管有多少map,也不管文件有多少的block只会启动一个reducer2). order by可以通过设置hive.mapred....

2020-01-13 14:44:43 241

原创 hive 的 left semi join 讲解与left jion的区别

一:介绍他们都是 hive join 方式的一种,join on 属于 common join(shuffle join/reduce join),而 left semi join 则属于 map join(broadcast join)的一种变体,从名字可以看出他们的实现原理有差异。二:区别(1)Semi Join,也叫半连接,是从分布式数据库中借鉴过来的方法。它的产生动机是:对于red...

2020-01-08 10:24:49 1040

原创 flume1.7 TailDirSource断点续传与文件更名后数据重复采集的bug修复

flume1.7 TailDirSource断点续传与文件更名后数据重复采集的bug修复一:flume1.7新增了组件Taildir Source官方链接:http://flume.apache.org/FlumeUserGuide.html#taildir-sourceTaildir Source相对于其他组件支持断点续传功能。但是此组件有个bug,即如果有个A文件,被更名为B文件后,A...

2020-01-07 16:53:27 587

原创 HDFS最基本的操作命令 和基本配置

1.HDFS集群修改SecondaryNameNode位置到hd09-2(1)修改hdfs-site.xml <configuration> //配置元数据存储位置 <property> <name>dfs.namenode.name.dir</name> <v...

2020-01-07 14:22:40 442

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除