Hive
苏先生_404
这个作者很懒,什么都没留下…
展开
-
【每天进步一点点】【hive窗口函数】 窗口函数综合练习
窗口函数综合练习 1.需求 1.1 数据 pk,2021-09-01,500,10.10.10.9 xingxing,2021-09-02,3500,10.10.10.10 pk,2021-02-03,46,10.10.10.9 xingxing,2021-09-04,578,10.10.10.10 pk,2021-09-05,345,10.10.10.9 pk,2021-04-06,235,10.10.10.9 xingxing,2021-09-07,78,10.10.10.10 pk,2021-0原创 2020-08-10 14:54:42 · 245 阅读 · 0 评论 -
【每天进步一点点】【Hive窗口函数】 ROW_NUMBER RANK DENSE_RANK 三者的区别
1. 测试数据 要求,根据 domain 分组,对traffic做倒叙排序,需要得到每个domain的排序情况; 2. RANK ROW_NUMBER DENSE_RANK 窗口函数使用 SQL select domain, time, traffic, ROW_NUMBER() OVER (partition by domain order by traffic desc) rn1, RANK() OVER (partition by domain order by traffic desc) rn原创 2020-08-10 12:40:54 · 298 阅读 · 0 评论 -
【每天进步一点点】【Hive窗口函数初使用】
Hive创建的窗口函数使用原创 2020-08-09 23:29:11 · 99 阅读 · 0 评论 -
Hive常见数据格式及存储(二)
上一篇文章中(Hive常见数据格式及存储(一)),主要使用Hive 来做出常见的数据格式对文件存储的对比;没看过的小伙伴,建议先看下; 本次,我们来具体聊聊 大数据下的存储格式; 行式存储 在RDBMS数据库中我们存储数据都是按照一行一行来存,也是按照一行一行来读,这种按照行来存储以及来读取数据的存储方式,我们称作为 行式存储 ,这种存储方式在HDFS中存的方式和RDBMS一样,都是将多行数据放在...原创 2019-09-05 03:32:40 · 450 阅读 · 0 评论 -
Hive常见数据格式及存储(一)
引言: 大数据应用中,我认为最核心的两个点就是 “存储” 和 “计算”, 在现在的大数据计算中,各种计算引擎的出现,迭代优化 使得数据计算能够快速的产生结果,但是数据存储以及数据格式,始终属于最为基本的,合理的数据存储以及数据格式,配合适合的计算引擎,能够使数据计算得到最大的提升,并且减少磁盘开销; 这里,我使用Hive作为计算引擎,来说明 数据格式对存储的重要性; 常见的数据存储格式 在hi...原创 2019-09-05 02:40:27 · 4662 阅读 · 0 评论 -
Hive DDL
Hive的数据在哪里?? Hive的数据存放在HDFS之上(真实数据) Hive的元数据可以存放在RDBMS之上(元数据) Hive数据抽象结构图 Database: Hive 中的Database 相当于是Hdfs中的一个文件夹 Hive 默认自带一个default数据库 默认数据库存放位置:/user/hive/warehouse 位置是由参数决定的:hive.metastore.w...原创 2018-10-24 19:29:59 · 428 阅读 · 0 评论 -
Hive DML(数据导入导出)
DML DML:Data Manipulation Language(数据管理语言) 加载数据到表 语法 LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)] 从本地加载数据 LOAD DATA LOCAL INPATH...原创 2018-10-25 17:57:28 · 159 阅读 · 0 评论 -
Hive 内部表 与 外部表
Hive中的表又分为内部表和外部表 ,Hive 中的每张表对应于HDFS上的一个文件夹,HDFS目录为:/user/hadoop/hive/warehouse/[databasename.db]/table 内部表 创建语句 这里我们采用从之前表中复制表结构和数据 create table ruoze_emp_managed as select * from ruoze_emp; 查看表结构 ...原创 2018-10-25 17:15:25 · 245 阅读 · 0 评论 -
Hive 实现WordCount
准备数据 wd.txt 创建Hive表 create table ruoze_wc( sentence string ); 加载数据到表中 load data local inpath '/home/hadoop/data/wd.txt' into table ruoze_wc; 查看表数据 执行hive 使用 split 函数 按照逗号切分单词 使用explode 函数 将切分好的单...原创 2018-10-28 18:11:03 · 111 阅读 · 0 评论 -
Hive常见函数
1.查看函数 查看hive所有的函数 show functions; 查看函数信息 desc function 函数名; 查看函数详细信息 desc function extended 函数名; 2.时间函数 显示当前日期 示例 显示当前时间 函数说明 示例 显示当前时间的时间戳 函数说明 示例 字符串 转 日期 函数说明 示例 加天数 函数说明 示例 减天数 函数说明...原创 2018-10-28 17:56:12 · 144 阅读 · 0 评论 -
Hive DML 查询
聚合函数 常见的聚合函数 包括 max min sum avg count,这类聚合函数,都是会执行MapReduce的 -- 求员工表中 最大 最小 平均 以及所有员工工资的和 select max(sal),min(sal),avg(sal),sum(sal) from ruoze_emp; 分组查询 出现在select中的字段,要么出现在group by子句中,要么出现在聚合函数中; ...原创 2018-10-28 17:02:59 · 130 阅读 · 0 评论 -
Hive部署
下载 wget http://archive-primary.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz 解压缩 [hadoop@hadoop000 softwore]$ tar -zxvf hive-1.1.0-cdh5.7.0.tar.gz -C …/app/ 配置环境变量 修改个人环境变量 vi ~/.bash_profil...原创 2018-10-19 10:13:14 · 119 阅读 · 0 评论