hive
anningzhu
这个作者很懒,什么都没留下…
展开
-
基于Hadoop的数据仓库Hive基础知识
Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。一、概述1-1 数据仓库概念数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Int转载 2017-03-01 17:23:36 · 572 阅读 · 0 评论 -
hive中内部表和外部表的区别
1.在Hive里面创建一个表:hive> create table wyp(id int, > name string, > age int, > tele string) > ROW FORMAT DELIMITED > FIELDS TERMINATED BY '\t' > STORED AS TEXTFILE;OKTim转载 2017-03-23 15:23:47 · 637 阅读 · 0 评论 -
Spark-1.3.1与Hive整合实现查询分析
在大数据应用场景下,使用过Hive做查询统计分析的应该知道,计算的延迟性非常大,可能一个非常复杂的统计分析需求,需要运行1个小时以上,但是比之于使用MySQL之类关系数据库做分析,执行速度快很多很多。使用HiveQL写类似SQL的查询分析语句,最终经过Hive查询解析器,翻译成Hadoop平台上的MapReduce程序进行运行,这也是MapReduce计算引擎的特点带来的延迟问题:Map中间结果写转载 2017-03-29 18:44:23 · 385 阅读 · 0 评论 -
hive插入操作
1.insert 语法格式为:基本的插入语法:INSERT OVERWRITE TABLE tablename [PARTITON(partcol1=val1,partclo2=val2)]select_statement FROM from_statementinsert overwrite table test_insert select * from test_table;转载 2017-03-29 14:37:03 · 406 阅读 · 0 评论 -
Failed with exception java.io.IOException:java.lang.IllegalArgumentException:&nbs
hive> show tables;OKFailed with exceptionjava.io.IOException:java.lang.IllegalArgumentException:java.net.URISyntaxException: Relative path in absolute URI:${system:user.name}Time taken: 0.193 se转载 2017-03-29 14:18:02 · 2483 阅读 · 0 评论 -
ETL(三)
三、使用Oozie定期自动执行ETL1. Oozie简介(1)Oozie是什么 Oozie是一个管理Hadoop作业、可伸缩、可扩展、可靠的工作流调度系统,其工作流作业是由一系列动作构成的有向无环图(DAGs),协调器作业是按时间频率周期性触发的Oozie工作流作业。Oozie支持的作业类型有Java map-reduce、Streaming map-reduce、Pig转载 2017-03-10 18:15:53 · 347 阅读 · 0 评论 -
ETL(一)
一、使用Sqoop抽取数据1. Sqoop简介 Sqoop是一个在Hadoop与结构化数据存储(如关系数据库)之间高效传输大批量数据的工具。它在2012年3月被成功孵化,现在已是Apache的顶级项目。Sqoop有Sqoop1和Sqoop2两代,Sqoop1最后的稳定版本是1.4.6,Sqoop2最后版本是1.99.6。需要注意的是,1.99.6与1.4.6并不兼容,而且截止转载 2017-03-10 18:14:50 · 359 阅读 · 0 评论 -
ETL(二)
二、使用Hive转换、装载数据1. Hive简介(1)Hive是什么 Hive是一个数据仓库软件,使用SQL读、写、管理分布式存储上的大数据集。它建立在Hadoop之上,具有以下功能和特点:通过SQL方便地访问数据,适合执行ETL、报表、数据分析等数据仓库任务。提供一种机制,给各种各样的数据格式加上结构。直接访问HDFS的文件,或者访问如HBase的其它数据存储。转载 2017-03-10 18:13:34 · 359 阅读 · 0 评论 -
hive权限控制
Hive由一个默认的设置来配置新建文件的默认权限。Xml代码 property> name>hive.files.umask.valuename> value>0002value> description>The dfs.umask value for the hive created foldersdescription> p转载 2017-03-10 18:06:52 · 358 阅读 · 0 评论 -
利用HQL统计: 新增用户数,日活,留存率
1.每天新增用户数怎么实现?2.日活怎么实现?3.留存率怎么实现?用户行为触发的日志上报,已经存放在Hive的外部分区表中.结构如下: 主要字段内容:dt表示日期,如20160510platform表示平台,只有两个选项,苹果和安卓mid是用户机器码,类似于网卡MAC地址什么的pver是版本channel是分发渠道现在需要统计每天用户转载 2017-03-10 17:38:05 · 8230 阅读 · 0 评论 -
写hive的udf函数
最近感受了Hive的udf函数的强大威力了,不仅可以使用很多已经有的udf函数,还可以自己定义符合业务场景的udf函数,下面就说一下如何写udf/udaf/udtf函数,算是一个入门介绍吧。First, you need to create a new class that extends UDF, with one or more methods named evaluate.转载 2017-06-20 17:06:07 · 1069 阅读 · 0 评论