自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Hive视图与索引

在 Hive 中可以使用创建视图,如果已存在具有相同名称的表或视图,则会抛出异常,建议使用预做判断。视图是只读的,不能用作 LOAD / INSERT / ALTER 的目标在创建视图时候视图就已经固定,对基表的后续更改(如添加列)将不会反映在视图;删除基表并不会删除视图,需要手动删除视图;视图可能包含 ORDER BY 和 LIMIT 子句。如果引用视图的查询语句也包含这类子句,其执行优先级低于视图对应字句。

2024-06-03 22:49:55 253

原创 Hive内置函数

说明: 求近似的第pth个百分位数,p必须介于0和1之间,返回类型为double,但是col字段支持浮点类型。比如,M是值为{‘f’ -> ‘foo’, ‘b’ -> ‘bar’, ‘all’ -> ‘foobar’}的map类型,那么M[‘all’]将会返回’foobar’说明: count(*)统计检索出的行的个数,包括NULL值的行;比如,A是个值为[‘foo’, ‘bar’]的数组类型,那么A[0]将返回’foo’,而A[1]将返回’bar’说明: sum(col)统计结果集中col的相加的结果;

2024-06-03 11:55:10 861

原创 Hive高级操作

lag(列名,往前的行数,[行数为null时的默认值,不指定为null]),可以计算用户上次购买时间,或者用户下次购买时间。ntile(n) 把有序分区中的行分发到指定数据的组中,各个组有编号,编号从1开始,对于每一行,ntile返回此行所属的组的编号。over()函数中如果不使用这三个函数,窗口大小是针对查询产生的所有数据,如果指定了分区,窗口大小是针对每个分区的数据。我们在使用over()窗口函数时,over()函数中的这三个函数可组合使用也可以不使用。搭配分析函数时,分析函数按照这个范围进行计算的。

2024-06-03 11:52:46 589

原创 Hive 元数据

元数据(Meta Date),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。在建表的时候,用户还需 要为表指定列,用户在指定表的列的同时也会指定自定义的 SerDe,元数据包括表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等。删除该表并不会删除掉这 份数据,不过描述表的元数据信息会被删除掉。在删除表的时候,内部表的元数据和数据会被一起删除,而外 部表只删除元数据,不删除数据。

2024-05-23 15:55:49 779 1

原创 第三章 Hive数据存储模型

外部表的真实数据不被Hive管理,当删除一张内部表,元数据及HDFS上的真实数据均被删除,而删除外部表则只会删除元数据而不会删除真实数据。在外部表(原始日志表)的基础上 做大量的统计分析,用到的中间表、结果表使用内部表存储,数据过 SELECT+INSERT 进入内部表。在建表的时候,用户还需 要为表指定列,用户在指定表的列的同时也会指定自定义的 SerDe,(2)EXTERNAL 关键字可以让用户创建一个外部表,在建表的同时可以指定一个指向实 际数据的路径(LOCATION),

2024-03-15 23:58:41 1188

原创 第二章 hive环境配置

rw-r--r--. 1 root root 609556480 3 月 21 15:41 mysql-5.7.28- 1.el7.x86_64.rpm-bundle.tar。libaio.so.1(LIBAIO_0.1)(64bit) 被 mysql-community-server-5.7.28- 1.el7.x86_64 需要。libaio.so.1(LIBAIO_0.4)(64bit) 被 mysql-community-server-5.7.28- 1.el7.x86_64 需要。

2024-03-14 12:15:36 1587 1

原创 第 1 章 Hive 数据仓库

Hive:由 Facebook 开源用于解决海量结构化日志的数据统计工具。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并 提供类SQL查询功能。

2024-03-14 12:09:33 1730

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除