Hive
文章平均质量分 72
墨染百城
目前专注于数据分析、大数据计算方面的学习
展开
-
Hive及其工作机制简介
Hive是一个基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一个表。并提供类SQL查询功能。数据仓库数据库是用来支撑在线联机业务的。比如页面上的数据的展示,保存客户操作产生的数据。这类要求变更是实时的、事务的。数据仓库:如果联机数据库中的数据太大了,需要将历史信息导入到离线的仓库中。可以存入各种各样的系统的数据。可以按照一定主题来组织这些表。每一个主题中的数据可能结构跟系统的表不同原创 2017-03-22 22:34:57 · 2218 阅读 · 0 评论 -
一道Hive面试题:累积报表
我们有如下的用户访问数据: userId visitDate visitCount u01 2017-01-21 5 u02 2017-01-23 6 u03 2017-01-22 8 u04 2017-01-20 3 u01 2017-01-23 6 u01 2017-02-21 8 u02 2017-01-原创 2017-04-02 20:29:44 · 2908 阅读 · 1 评论 -
将Hive启动为服务
我们之前使用的Shell方式与Hive交互只是Hive交互方式中的一种,还有一种就是将Hive启动为服务,然后运行在一个节点上,那么剩下的节点就可以使用客户端来连接它,从而也可以使用Hive的数据分析服务。前台模式可以使用下面的命令来将Hive启动为服务。/root/apps/hive-1.2.1/bin/hiveserver2后台模式也可以用下面的命令在后台启动Hive服务。nohup bin/原创 2017-03-26 00:18:27 · 1875 阅读 · 0 评论 -
Hive安装&初体验
下载&解压从这个地址下载Hive1.2.1 https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-1.2.1/apache-hive-1.2.1-bin.tar.gz然后使用下面的命令解压到指定目录下面:tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /root/apps/然后使用下面的命令改一下名字:mv原创 2017-03-25 23:49:31 · 360 阅读 · 0 评论 -
Hive TransForm案例
Hive的 TRANSFORM 关键字提供了在SQL中调用自写脚本的功能,适合实现Hive中没有的功能又不想写UDF的情况。步骤1、先加载rating.json文件到hive的一个原始表 rat_jsoncreate table rat_json(line string) row format delimited;load data local inpath '/home/hadoop/ratin原创 2017-04-01 13:36:51 · 2879 阅读 · 0 评论 -
Hive中的UDF及自定义函数示例
Hive官方的UDF手册地址是:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF测试内置函数的快捷方法创建一个表dualload数据到dual表尝试内置函数自定义函数例子有时候Hive提供的内置函数不能满足我们的要求,此时就需要自定义函数。下面我们做一个自定义函数实现ToLowerCase的功能。新建Java工程需原创 2017-04-01 13:25:06 · 1371 阅读 · 0 评论 -
Hive中的Join操作
Hive中有许多的Join操作,如果LEFT,RIGHT和FULL OUTER JOIN,INNER JOIN,LEFT SEMI JOIN等。那么它们都各自有什么特点呢?感觉很难说明这些区别,还是通过例子来看。准备数据如果我们有一个表,数据如下:a.txt1,a2,b3,c4,d7,y8,u另一个表中的数据如下:b.txt2,bb3,cc7,yy9,pp在Hive中建表:cre原创 2017-04-01 11:27:12 · 1384 阅读 · 0 评论 -
Hive HQL练习
测试数据course.txt1,数据库2,数学3,信息系统4,操作系统5,数据结构6,数据处理sc.txt95001,1,8195001,2,8595001,3,8895001,4,7095002,2,9095002,3,8095002,4,7195002,5,6095003,1,8295003,3,9095003,5,10095004,1,8095004,2,9原创 2017-03-30 15:15:46 · 7731 阅读 · 1 评论 -
Hive分桶的作用
分区的主要作用是可用允许我们只统计一部分内容,加快统计的速度。什么是分桶假如我们有个表t_buck。create table t_buck(id string,name string)clustered by (id) sort by(id) into 4 buckets;指定了根据id分成4个桶。只是说明了表会分桶,具体的分区需要在导入数据时产生。最好的导入数据方式是insert into t原创 2017-03-30 17:01:40 · 9247 阅读 · 0 评论 -
Hive建表语句和分区表概念及示范
Hive的建表语句CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_commen原创 2017-03-30 12:12:24 · 5241 阅读 · 0 评论 -
Hive基于SQL创建漏斗模型
总结为了突出重点,总结就写在最前面了。从拿到需求开始,我们经历了以下步骤来完成工作:需求分析设计测试数据集及测试用例数据清洗需要实现测试其中数据清洗主要是做了两个工作:去掉用户每一次访问中重复的页面记录,只保留每个页面的最后一次访问记录。将用户访问记录进行合并,将所有访问过的页面和访问时间整合到1行当中。实现的判断依据如下:乱序漏斗:访问的页面数小于4,或者页面顺序不对。顺序漏原创 2017-03-26 17:16:41 · 5917 阅读 · 0 评论