![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive数据仓库
文章平均质量分 63
哈维先生
这个作者很懒,什么都没留下…
展开
-
Hive体系结构
Hive 体系结构Hive 的结构如图所示主要分为以下几个部分:用户接口,包括 CLI,Client,WUI。元数据存储,通常是存储在关系数据库如 mysql, derby 中。解释器、编译器、优化器、执行器。Hadoop:用 HDFS 进行存储,利用 MapReduce 进行计算。用户接口主要有三个:CLI,Client 和 WUI转载 2014-02-27 14:02:14 · 619 阅读 · 0 评论 -
Hive命令行
Hive 命令行Hive 命令行示例•从命令行执行指定的sql语句•$HIVE_HOME/bin/hive -e 'select a.col from tab1 a'•以指定的hive环境变量执行指定的sql语句•$HIVE_HOME/bin/hive -e 'select a.col from tab1 a' -hiveconf hive.exec.scr原创 2014-07-24 20:47:04 · 1100 阅读 · 0 评论 -
Hive数据导入和导出
1/hive数据导出 很多时候,我们在hive中执行select语句,希望将最终的结果保存到本地文件或者保存到hdfs系统中或者保存到一个新的表中,hive提供了方便的关键词,来实现上面所述的功能。 1.将select的结果放到一个的的表格中(首先要用create table创建新的表格) insert overwrite table test select uid,nam转载 2014-07-22 13:19:59 · 586 阅读 · 0 评论 -
hive的udf的编写
1.配置环境1.引入jar包:hive-exec-0.8.0.jar 和 hadoop-core-0.20.2.jar2.编写udf函数1.extends UDF2.重新定义UDF的evaluate函数。package com.qunar.hiveudf;import java.text.SimpleDateFormat;import java.util.Calen原创 2014-07-23 20:05:47 · 960 阅读 · 0 评论 -
Hive中实现增量更新
现在有一个学生表,其中包括有学生的id,年龄和名称。如下图所示:hive> select * from student;OK3 23 zheng 201401021 20 qiu 201401024 32 yang 201401025 24 qian 201401022原创 2014-03-08 07:46:44 · 3122 阅读 · 1 评论 -
Hive的buckets
hive> select * from new_test;OK1 20 qiu 201401012 43 liu 201401013 23 zheng 201401014 32 yang 201401015 24 qian 20140101Ti原创 2014-03-07 18:51:18 · 1042 阅读 · 0 评论 -
Hive中SELECT TOP N的方法(order by与sort by)
我想说的SELECT TOP N是取最大前N条或者最小前N条。Hive提供了limit关键字,再配合order by可以很容易地实现SELECT TOP N。但是在Hive中order by只能使用1个reduce,如果表的数据量很大,那么order by就会力不从心。例如我们执行SQL:select a from ljntest01 order by a limit转载 2014-03-11 21:49:42 · 547 阅读 · 0 评论 -
hive select * from和select 字段 from区别
select * from tbl_name limit 1,则不需要执行mapreduce任务,直接就可以读取相应的数据。select 字段 from tbl_name limit 1,则需要执行相应的MapReduce任务,所以操作的时间很长。原创 2014-03-11 21:15:00 · 2479 阅读 · 1 评论 -
hive sort by/order by/cluster by/distribute by
Order by[plain] view plaincopycolOrder: ( ASC | DESC ) orderBy: ORDER BY colName colOrder? (',' colName colOrder?)* query: SELECT expression (',' expression)* FROM sr转载 2014-03-06 13:40:26 · 721 阅读 · 0 评论 -
Hive表分区
新建一个有一个分区dt的表baseinfo。hive> create table baseinfo( > id int, > name string > )partitioned by (dt string) row format delimited fields terminated by '\t' lines terminated by '\n' stored原创 2014-03-03 17:24:15 · 119 阅读 · 0 评论 -
hive优化之-控制hive任务中的map数和reduce数
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有转载 2014-03-04 23:15:51 · 609 阅读 · 0 评论 -
hive与数据库的区别
摘要:由于 Hive 采用了 SQL 的查询语言 HQL,因此很容易将 Hive 理解为数据库。其实从结构上来看,Hive 和数据库除了拥有类似的查询语言,再无类似之处。本文将从多个方面来阐述 Hive 和数据库的差异。数据库可以用在 Online 的应用中,但是Hive 是为数据仓库而设计的,清楚这一点,有助于从应用角度理解 Hive 的特性。查询语言HQL转载 2014-01-14 10:41:41 · 1050 阅读 · 0 评论 -
Hive的日期函数
1.unix时间戳转时间函数语法: from_unixtime(bigint unixtime[, string format])返回值: string说明: 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时区的时间格式举例:hive> select from_unixtime(1323308943,‘yyyyMMdd’) from原创 2014-07-29 16:09:49 · 955 阅读 · 0 评论