hive
桩如人生
这个作者很懒,什么都没留下…
展开
-
HiveJDBCInterface Integration with Pentaho or SQuirrel SQL Client
Hive JDBC DriverHive JDBC DriverIntegration with PentahoIntegration with SQuirrel SQL ClientThe current JDBC interface for Hive only supports running queries and fetching r转载 2016-03-30 11:17:43 · 521 阅读 · 0 评论 -
hive 自动生成动态分区
一、设置参数--允许使用动态分区可通过set hive.exec.dynamic.partition;查看set hive.exec.dynamic.partition=true;--当需要设置所有列为dynamic时需要这样设置set hive.exec.dynamic.partition.mode=nonstrict;--如果分区总数超过这个数量会报错set hive.原创 2017-03-17 17:55:39 · 6015 阅读 · 0 评论 -
beeline 参数
Beeline工作模式有两种,即本地嵌入模式和远程模式。嵌入模式情况下,它返回一个嵌入式的Hive(类似于Hive CLI)。而远程模式则是通过Thrift协议与某个单独的HiveServer2进程进行连接通信。下面给一个简单的登录Beeline的使用实例:[html] view plain copy% bin/beeline转载 2017-03-17 17:42:12 · 6386 阅读 · 0 评论 -
Hive SQL的编译过程
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有转载 2016-10-31 10:01:56 · 352 阅读 · 0 评论 -
Hive分析窗口函数(一) SUM,AVG,MIN,MAX
Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。今天先看几个基础的,SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。Hive版本为 apache-hive-0.13.1数据准备CREATE EXTERNAL TABLE lxw1234 (cookieid string,createti转载 2016-06-23 14:06:36 · 580 阅读 · 0 评论 -
Hive分析窗口函数(五) GROUPING SETS,GROUPING__ID,CUBE,ROLLUP
GROUPING SETS,GROUPING__ID,CUBE,ROLLUP这几个分析函数通常用于OLAP中,不能累加,而且需要根据不同维度上钻和下钻的指标统计,比如,分小时、天、月的UV数。Hive版本为 apache-hive-0.13.1数据准备:2015-03,2015-03-10,cookie12015-03,2015-03-10,cookie52015-03转载 2016-07-18 11:48:37 · 372 阅读 · 0 评论 -
Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUE
继续学习这四个分析函数。注意: 这几个函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章 )Hive版本为 apache-hive-0.13.1数据准备:cookie1,2015-04-10 10:00:02,url2cookie1,2015-04-10 10:00:00,url1cookie1,2015-04-10 10:03:04,1url3c转载 2016-07-18 11:47:31 · 416 阅读 · 0 评论 -
Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK
这两个序列分析函数不是很常用,这里也介绍一下。注意: 序列函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章 )Hive版本为 apache-hive-0.13.1数据准备:d1,user1,1000d1,user2,2000d1,user3,3000d2,user4,4000d2,user5,5000 CREATE EXTERNAL TABLE转载 2016-07-18 11:46:33 · 537 阅读 · 0 评论 -
Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK
本文中介绍前几个序列函数,NTILE,ROW_NUMBER,RANK,DENSE_RANK,下面会一一解释各自的用途。Hive版本为 apache-hive-0.13.1注意: 序列函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章 )数据准备:cookie1,2015-04-10,1cookie1,2015-04-11,5cookie1,2015转载 2016-07-18 11:45:14 · 336 阅读 · 0 评论 -
hive metastore 后台启动
1.nohup hive --service metastore -p 9083 >/dev/null &原创 2016-05-04 11:20:53 · 3790 阅读 · 0 评论 -
Could not alter table in Spark 1.5 use HiveContext
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Unable to alter table. Invalid method name: 'alter_table_with_cascade' msg: org.apache.spark.sql.execution.QueryEx转载 2016-04-20 11:29:22 · 1744 阅读 · 0 评论 -
hive编译
1. 下载apache-hive-2.0.0-src.tar.gz,解压2. 进入根目录,export MAVEN_OPTS="-Xmx2g-XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512mexport _JAVA_OPTIONS="-Xms64m -Xmx1600m"3. 编译:mvn clean pack原创 2016-04-28 09:05:38 · 363 阅读 · 0 评论 -
hive on spark安装
Hive on spark安装1. 下载apache-hive-2.0.0-bin.tar.gz,安装。(尽量安装和hive相对应的版本spark和hadoop)2. 编译spark(不带hive的)./make-distribution.sh--name "hadoop2-without-hive" --tgz "-Pyarn,hadoop-provided,ha原创 2016-04-28 08:49:20 · 5416 阅读 · 0 评论 -
hadoop集群配置之hive1.2.0安装部署(远程mysql)
hadoop的版本是2.6.0根据hive的源数据不同分为三种模式 1、内嵌模式,使用自带的derby 2、本地独立模式,本地mysql库 3、远程模式,远程mysql库这里主要将第三种模式#假设hadoop2.6.0已经正常启动首先下载hive-1.2.0版本,下载地址hive官方下载然后登陆root修改环境变量,转载 2016-03-29 10:52:46 · 819 阅读 · 0 评论 -
Squirrel SQL Client连接hive安装部署
刚看到一个可以连接Hive的客户端界面工具–SQuirrel SQL Client,试了一下,用起来还行,在这里记录一下安装及使用方法。SQuirrel SQL Client是一个用Java写的数据库客户端,用JDBC统一数据库访问接口以后,可以通过一个统一的用户界面来操作MySQL、PostgreSQL、MSSQL、Oracle、Hive等等任何支持JDBC访问的数据库。使用起来非常方便转载 2016-03-30 14:33:53 · 9630 阅读 · 0 评论 -
Hive学习之HiveServer2服务端配置与启动
在之前的学习和实践Hive中,使用的都是CLI或者hive –e的方式,该方式仅允许使用HiveQL执行查询、更新等操作,并且该方式比较笨拙单一。幸好Hive提供了轻客户端的实现,通过HiveServer或者HiveServer2,客户端可以在不启动CLI的情况下对Hive中的数据进行操作,两者都允许远程客户端使用多种编程语言如Java、Python向Hive提交请求,取回结果。HiveServe转载 2016-03-30 11:20:35 · 6014 阅读 · 0 评论 -
HiveServer2 Clients
HiveServer2 ClientsSkip to end of metadataCreated by Prasad Mujumdar, last modified by Andrew Sears on Mar 06, 2016Go to start of metadata Bee转载 2016-03-30 11:19:05 · 2163 阅读 · 0 评论 -
hive 加载数据跳过行首和行尾
有时候用hive读取外表数据时,比如csv这种类型的,需要跳过行首或者行尾一些和数据无关的或者自动生成的多余信息,这里可以用属性设置来实现,快速mark下,建表的时候设置如下Create external table testtable (name string, message string) row format delimited fields terminated by转载 2017-04-21 14:33:26 · 3798 阅读 · 0 评论