hive
文章平均质量分 66
梵圣
这个作者很懒,什么都没留下…
展开
-
Hive 案例
1、需求描述和数据说明针对销售数据,完成统计:按年统计销售额销售金额在 10W 以上的订单每年销售额的差值年度订单金额前10位(年度、订单号、订单金额、排名)季度订单金额前10位(年度、季度、订单id、订单金额、排名)求所有交易日中订单金额最高的前10位每年度销售额最大的交易日年度最畅销的商品(即每年销售金额最大的商品)数据如下2、建表并导入数据vim createtable.hql-- createtable.hqldrop database sale cascad原创 2021-10-16 17:05:29 · 821 阅读 · 0 评论 -
Hive 之元数据管理
1、Metastore在Hive的具体使用中,首先面临的问题便是如何定义表结构信息,跟结构化的数据映射成功。所谓的映射指的是一种对应关系。在Hive中需要描述清楚表跟文件之间的映射关系、列和字段之间的关系等等信息。这些描述映射关系的数据的称之为Hive的元数据。该数据十分重要,因为只有通过查询它才可以确定用户编写sql和最终操作文件之间的关系。Metadata即元数据。元数据包含用Hive创建的database、table、表的字段等元信息。元数据存储在关系型数据库中。如hive内置的Derby、第三方原创 2021-10-16 14:43:17 · 945 阅读 · 0 评论 -
Hive之文件格式
Hive支持的存储数的格式主要有:TEXTFILE(默认格式) 、SEQUENCEFILE、RCFILE、ORCFILE、PARQUET。textfile为默认格式,建表时没有指定文件格式,则使用TEXTFILE,导入数据时会直接把数据文件拷贝到hdfs上不进行处理;sequencefile,rcfile,orcfile格式的表不能直接从本地文件导入数据,数据要先导入到textfile格式的表中, 然后再从表中用insert导入sequencefile、rcfile、orcfile表中。行存储与列原创 2021-10-10 23:36:52 · 1103 阅读 · 0 评论 -
Hive 之自定义函数
当 Hive 提供的内置函数无法满足实际的业务处理需要时,可以考虑使用用户自定义函数进行扩展。用户自定义函数分为以下三类:UDF(User Defined Function)。用户自定义函数,一进一出UDAF(User Defined Aggregation Function)。用户自定义聚集函数,多进一出;类似于:count/max/minUDTF(User Defined Table-Generating Functions)。用户自定义表生成函数,一进多出;类似于:explodeUDF开发原创 2021-10-10 19:10:01 · 271 阅读 · 0 评论 -
Hive 之 窗口函数
目录1、 窗口基本用法1.1 over 关键字1.2 partition by子句1.3 order by 子句2、Window子句3、排名函数4、序列函数5、GROUPING SETS、GROUPING__ID、CUBE和ROLLUP窗口函数又名开窗函数,属于分析函数的一种。用于解决复杂报表统计需求的功能强大的函数,很多场景都需要用到。窗口函数用于计算基于组的某种聚合值,它和聚合函数的不同之处是:对于每个组返回多行,而聚合函数对于每个组只返回一行。1、 窗口基本用法1.1 over 关键字使用窗口原创 2021-10-10 17:23:42 · 477 阅读 · 0 评论 -
Hive 之函数
查看系统函数-- 查看系统自带函数show functions;-- 显示自带函数的用法desc function upper;desc function extended upper;日期函数-- 当前前日期 current_date带不带小括号都行select current_date, unix_timestamp();+-------------+-------------+| _c0 | _c1 |+-------------+-----原创 2021-10-09 22:51:57 · 44 阅读 · 0 评论 -
Hiv之DQL
1、select语法:SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE where_condition][GROUP BY col_list][ORDER BY col_list][CLUSTER BY col_list | [DISTRIBUTE BY col_list] [SORT BYcol_list]][LIMIT [offset,] rows]创建表,加载数据-- 测原创 2021-10-05 13:23:20 · 116 阅读 · 0 评论 -
Hive 之数据导入导出
1、导入loadLOAD DATA [LOCAL] INPATH 'filepath'[OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1,partcol2=val2 ...)]LOCAL:表示从本地导入,否则从HDFS上导入INPATH:加载数据的路径OVERWRITE:覆盖表中已有数据;否则表示追加数据PARTITION:将数据加载到指定的分区2、插入数据-- 创建分区表CREATE TABLE tabC (id原创 2021-10-03 13:29:52 · 61 阅读 · 0 评论 -
Hive 之 DDL
DDL(data definition language): 主要的命令有CREATE、ALTER、DROP等。DDL主要是用在定义、修改数据库对象的结构 或 数据类型。1、Database原创 2021-10-02 21:55:22 · 276 阅读 · 0 评论 -
Hive数据类型
1、数据类型1.1 基本数据类型1.2 数据类型转换hive (default)> > > select '1.0' + 2;OK_c03.0Time taken: 20.331 seconds, Fetched: 1 row(s)hive (default)>hive (default)> > SELECT '1111' > 10;OK_c0原创 2021-09-26 23:26:52 · 226 阅读 · 0 评论 -
Hive 安装
1、 安装Mysql使用Mysql 存储Hive 的元信息,不使用mariadb1、先卸载mariadbrpm -qa | grep mariadbrpm -e --nodeps 文件名2、下载mysql 安装包这里是离线安装,先下载Mysql .gz.tar 包。 下载地址:https://cdn.mysql.com//Downloads/MySQL-5.7/mysql-5.7.31-linux-glibc2.12-x86_64.tar.gz3、开始安装在开始安装之前,为了安全,一般原创 2021-09-25 20:59:04 · 77 阅读 · 0 评论