Hive
文章平均质量分 87
小江_xiaojiang
这个作者很懒,什么都没留下…
展开
-
Hive初识入门
Hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能。本质是将HQL转换为MapReduce程序。数据存储在HDFS上。hive架构用户接口:Client CLI(hive shell)、JDFB/ODBC(java访问hive)、WEBUI(浏览器访问hive)元数据:Metastore原创 2016-10-17 19:30:51 · 676 阅读 · 1 评论 -
Hive高级进阶与优化
HiveServer2参考地址:http://blog.csdn.net/czw698/article/details/443949231、启动hiveserver2服务$HIVE_HOME/bin/hive --service hiveserver2 2、测试连接是否以连上不用写jdbc程序,运行 bin/beeline.sh然后输入 !connect jdbc原创 2016-10-18 15:07:25 · 4835 阅读 · 0 评论 -
Hive 操作数据库语句总结
转载地址:http://blog.csdn.net/xiaoshunzi111/article/details/487278311、创建一个表,字段之间用 \t 分隔; Hive>create table student (id int, name string) row format delimited fields terminated b转载 2017-06-14 14:53:14 · 8909 阅读 · 0 评论 -
Hive分析窗口函数(一) SUM,AVG,MIN,MAX
转载地址:http://www.aboutyun.com/thread-12831-1-1.htmlHive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。今天先看几个基础的,SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。Hive版本为 apache-hive-0.13.1数据准备 CREATE转载 2017-08-11 14:37:51 · 1829 阅读 · 0 评论 -
Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK
接上篇:Hive分析窗口函数(一)SUM,AVG,MIN,MAx本文中介绍前几个序列函数,NTILE,ROW_NUMBER,RANK,DENSE_RANK,下面会一一解释各自的用途。Hive版本为 apache-hive-0.13.1注意: 序列函数不支持WINDOW子句。(什么是WINDOW子句,Hive分析窗口函数(一)SUM,AVG,MIN,MAx)数据准备:转载 2017-08-11 14:46:19 · 310 阅读 · 0 评论 -
Hive分析窗口函数(三) LAG,LEAD,FIRST_VALUE,LAST_VALUE
接上篇Hive分析窗口函数(二、三) NTILE,ROW_NUMBER,RANK,DENSE_RANK继续学习这四个分析函数。注意: 这几个函数不支持WINDOW子句。(什么是WINDOW子句,Hive分析窗口函数(一)SUM,AVG,MIN,MAx)Hive版本为 apache-hive-0.13.1数据准备:cookie1,2015-04-10转载 2017-08-11 14:57:30 · 1729 阅读 · 0 评论 -
Hive分析窗口函数(四) GROUPING SETS,GROUPING__ID,CUBE,ROLLUP
接上篇Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUEGROUPING SETS,GROUPING__ID,CUBE,ROLLUP这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。Hive版本为 apache-hive-0.13.1数据准备:2转载 2017-08-11 15:08:05 · 553 阅读 · 0 评论 -
Hive深入详解
Hive表的创建方法一:同sqlcreate table if not exits deault.bf_log_20150913(ip string comment 'remot ip address', ---字段注释user string ,req_url string comment 'user request url')comment 'Beifeng原创 2016-10-17 20:23:11 · 2399 阅读 · 0 评论 -
hive中UDTF编写和使用
hive使用也将近两年了,很多东西都在慢慢累积,对于自定义的function,工作中主要用到的就是UDF和UDTF,UDF在前面的文章已经介绍过了,这里将UDTF做一个笔记,以便以后参考。1. UDTF介绍UDTF(User-Defined Table-Generating Functions) 用来解决 输入一行输出多行(On-to-many maping) 的需求。原创 2017-09-08 10:43:09 · 9333 阅读 · 0 评论