自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 数据仓库之拉链表原理,设计及案例

本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。 通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。 举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规模使用,我们会以Hive场景下...

2019-10-22 16:55:35 1107

转载 Hive学习之路 (十四)Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK

目录概述 数据准备 数据格式 创建表 玩一玩NTILE 说明 查询语句 查询结果 比如,统计一个cookie,pv数最多的前1/3的天 玩一玩ROW_NUMBER 说明 分组排序 查询结果 玩一玩RANK 和 DENSE_RANK 查询语句 查询结果 ROW_NUMBER、RANK和DENSE_RANK的区别正文回到顶部...

2019-07-09 16:18:01 118

转载 Hive学习之路 (十三)Hive分析窗口函数(一) SUM,AVG,MIN,MAX

目录数据准备 数据格式 创建数据库及表 玩一玩SUM 查询语句 查询结果 说明 玩一玩AVG 查询语句 查询结果 玩一玩MIN 查询语句 查询结果 玩一玩MAX 查询语句 查询结果 正文回到顶部数据准备数据格式cookie1,2015-04-10,1cookie1,2015-04-11,5co...

2019-07-09 15:01:22 165

转载 Hive学习之路 (七)Hive的DDL操作

目录1、创建库 语法结构 创建库的方式 2、查看库 查看库的方式 3、删除库 说明 示例 4、切换库 语法 示例 1、创建表 语法 示例 2、查看表 (1)查看表列表 (2)查看表的详细信息 查看表的信息 (3)查看表的详细建表语句 3、修改表 (1)修改表名 (2)修改字段定义 (3)修改分区信息 ...

2019-07-08 16:51:39 138

转载 Hive学习之路 (八)Hive中文乱码

目录Hive注释中文乱码 针对元数据库metastore中的表,分区,视图的编码设置 1、进入数据库Metastore中执行以下5条SQL语句 2、修改metastore的连接URL 验证正文回到顶部Hive注释中文乱码创建表的时候,comment说明字段包含中文,表成功创建成功之后,中文说明显示乱码create externa...

2019-07-08 16:50:08 73

转载 Hive学习之路 (一)Hive初识

目录Hive 简介 什么是Hive 为什么使用 Hive Hive 特点 Hive 和 RDBMS 的对比 Hive的架构 1、用户接口: shell/CLI, jdbc/odbc, webui Command Line Interface 2、跨语言服务 : thrift server 提供了一种能力,让用户可以使用多种不同的语言来操纵hive 3、底层的Dr...

2019-07-08 11:56:29 90

转载 Hive分析窗口函数 GROUPING SETS、GROUPING__ID、CUBE、ROLLUP

目录概述 数据准备 数据格式 创建表 玩一玩GROUPING SETS和GROUPING__ID 说明 查询语句 查询结果 结果说明 再比如 玩一玩CUBE 说明 查询语句 查询结果 玩一玩ROLLUP 说明 查询语句 正文回到顶部概述GROUPING SETS,GROUPING__ID,CUBE,RO...

2019-07-08 11:27:17 146

转载 Spark笔记整理之RDD转化DataFrame

1.概述RDD转化为DataFrame共有两种方式,下面我将结合源码,对这两种方式进行试验和讲解 通过反射的方式,这种方式需要事先知道这份数据的Schema信息,才能使用,应用场景例如:读取HDFS数据等等 通过编码实现,这种方式是自定义Schema的方式,可以在不知道Schema的时候使用。 2.详解1).反射方式:定义case class,类似于定义DF的Sch...

2018-08-14 10:15:09 344

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除