- 博客(8)
- 收藏
- 关注
原创 数据仓库之拉链表原理,设计及案例
本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。 通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。 举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规模使用,我们会以Hive场景下...
2019-10-22 16:55:35 1107
转载 Hive学习之路 (十四)Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK
目录概述 数据准备 数据格式 创建表 玩一玩NTILE 说明 查询语句 查询结果 比如,统计一个cookie,pv数最多的前1/3的天 玩一玩ROW_NUMBER 说明 分组排序 查询结果 玩一玩RANK 和 DENSE_RANK 查询语句 查询结果 ROW_NUMBER、RANK和DENSE_RANK的区别正文回到顶部...
2019-07-09 16:18:01 118
转载 Hive学习之路 (十三)Hive分析窗口函数(一) SUM,AVG,MIN,MAX
目录数据准备 数据格式 创建数据库及表 玩一玩SUM 查询语句 查询结果 说明 玩一玩AVG 查询语句 查询结果 玩一玩MIN 查询语句 查询结果 玩一玩MAX 查询语句 查询结果 正文回到顶部数据准备数据格式cookie1,2015-04-10,1cookie1,2015-04-11,5co...
2019-07-09 15:01:22 165
转载 Hive学习之路 (七)Hive的DDL操作
目录1、创建库 语法结构 创建库的方式 2、查看库 查看库的方式 3、删除库 说明 示例 4、切换库 语法 示例 1、创建表 语法 示例 2、查看表 (1)查看表列表 (2)查看表的详细信息 查看表的信息 (3)查看表的详细建表语句 3、修改表 (1)修改表名 (2)修改字段定义 (3)修改分区信息 ...
2019-07-08 16:51:39 138
转载 Hive学习之路 (八)Hive中文乱码
目录Hive注释中文乱码 针对元数据库metastore中的表,分区,视图的编码设置 1、进入数据库Metastore中执行以下5条SQL语句 2、修改metastore的连接URL 验证正文回到顶部Hive注释中文乱码创建表的时候,comment说明字段包含中文,表成功创建成功之后,中文说明显示乱码create externa...
2019-07-08 16:50:08 73
转载 Hive学习之路 (一)Hive初识
目录Hive 简介 什么是Hive 为什么使用 Hive Hive 特点 Hive 和 RDBMS 的对比 Hive的架构 1、用户接口: shell/CLI, jdbc/odbc, webui Command Line Interface 2、跨语言服务 : thrift server 提供了一种能力,让用户可以使用多种不同的语言来操纵hive 3、底层的Dr...
2019-07-08 11:56:29 90
转载 Hive分析窗口函数 GROUPING SETS、GROUPING__ID、CUBE、ROLLUP
目录概述 数据准备 数据格式 创建表 玩一玩GROUPING SETS和GROUPING__ID 说明 查询语句 查询结果 结果说明 再比如 玩一玩CUBE 说明 查询语句 查询结果 玩一玩ROLLUP 说明 查询语句 正文回到顶部概述GROUPING SETS,GROUPING__ID,CUBE,RO...
2019-07-08 11:27:17 146
转载 Spark笔记整理之RDD转化DataFrame
1.概述RDD转化为DataFrame共有两种方式,下面我将结合源码,对这两种方式进行试验和讲解 通过反射的方式,这种方式需要事先知道这份数据的Schema信息,才能使用,应用场景例如:读取HDFS数据等等 通过编码实现,这种方式是自定义Schema的方式,可以在不知道Schema的时候使用。 2.详解1).反射方式:定义case class,类似于定义DF的Sch...
2018-08-14 10:15:09 344
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人