hive
文章平均质量分 76
施小赞
人生苦短,我爱Java
展开
-
3、Hive安装部署
新版本的Hive启动的时候,默认申请的JVM堆内存大小为256M,JVM堆内存申请的太小,导致后期开启本地模式,执行复杂的SQL时经常会报错:java.lang.OutOfMemoryError: Java heap space,因此最好提前调整一下HADOOP_HEAPSIZE这个参数。(1)修改$HIVE_HOME/conf下的hive-env.sh.template为hive-env.sh。2)解压apache-hive-3.1.2-bin.tar.gz到/opt/module/目录下面。原创 2023-07-04 18:00:30 · 313 阅读 · 0 评论 -
Hive SQL题库(中级)
第1章 环境准备1.1 用户信息表1)表结构user_id(用户id)gender(性别)birthday(生日)101男1990-01-01102女1991-02-01103女1992-03-01104男1993-04-01 2)建表语句3)数据装载1.2 商品信息表1)表结构sku_id(商品id)name(商品名称)category_id(分类id)from_date(上架日期)price(商品价格)1xiaomi 1012020-01-0120006洗碗机22020-02-0120009原创 2023-06-26 18:08:33 · 486 阅读 · 0 评论 -
Hive函数(二)
Lateral View可以将UDTF应用到源表的每行数据,将每行数据转换为一行或多行,并将源表中每行的输出结果与该行连接起来,形成一个虚拟表。绝大多数的聚合函数都可以配合窗口使用,例如max(),min(),sum(),count(),avg()等。窗口函数,能为每行数据划分一个窗口,然后对窗口范围内的数据进行计算,最后将计算结果返回给该行数据。思考:如下基于值的窗口划分方式,是基于哪个字段的值划分的?该查询语句的返回结果是什么?窗口范围的定义分为两种类型,一种是基于行的,一种是基于值的。原创 2023-06-26 15:28:07 · 483 阅读 · 0 评论 -
Hive SQL题库(初级)
① 先找出有两门以上不及格的学生名单,按照学生分组,过滤组内成绩低于60的并进行count,count>=2。② 接着做出一张表查询学生的平均成绩并和上一个子查询中的学生学号进行连接。(2)将如下4个文件放到/opt/module/data目录下。查询一共参加三门课程且其中一门为语文课程的学生的id和姓名。学生id 语文 数学 英语 有效课程数 有效平均成绩。(1)创建/opt/module/data目录。(2)验证插入数据情况。原创 2023-06-21 17:12:09 · 820 阅读 · 0 评论 -
Hive函数(一)
语法:get_json_object(string json_string, string path)Hive提供了大量的内置函数,按照其特点可大致分为如下几类:单行函数、聚合函数、炸裂函数、窗口函数。语法:regexp_replace(string A, string B, string C)| array(string))语法:concat(string A, string B, string C, ……语法:replace(string A, string B, string C)原创 2023-06-21 16:55:08 · 1034 阅读 · 0 评论 -
Hive安装部署
1)把apache-hive-3.1.3-bin.tar.gz上传到Linux的/opt/software目录下。观察HDFS的路径/user/hive/warehouse/stu,体会Hive与Hadoop之间的关系。2)解压apache-hive-3.1.3-bin.tar.gz到/opt/module/目录下面。3)修改apache-hive-3.1.3-bin.tar.gz的名称为hive。4)修改/etc/profile.d/my_env.sh,添加环境变量。1、Hive安装地址。原创 2023-05-29 15:42:12 · 703 阅读 · 0 评论