hive
lykke2012
这个作者很懒,什么都没留下…
展开
-
hive安装
hive安装教程 由于为了处理大量的搜索日志,所以经过考察决定使用hive作为数据仓库来分析处理大量的用户搜索日志,安装了hive 并且集成了hbase,最近还是有很多人问我hive怎么安装,那我就把我安装的过程公开吧,希望哪里不对的地方大家指正下。1. 官网下载hive http://mirror.bit.edu.cn/apache//hive/hive-0.7.1/...2012-02-01 09:43:26 · 266 阅读 · 0 评论 -
hive的权限控制
hive的权限控制hiveserver 不支持 并发的访问.如果有多于一个client 并发访问的时候 会报出来表找不到的错误.通过不同的业务启动不同的端口 可以解决此问题.这样不同的端口的hiveserver服务 就不存在多个client同时访问一个hiveserver的情况了.hive是没有库的概念的,但是我们通常是需要“库”这个东西存在。 1.不同日志,视...2012-10-09 17:48:45 · 95 阅读 · 0 评论 -
hive topN 实现
hive的topN实现hive的topN实现方式有很多种,网上有一些通过自己写的udf实现,下面将我写的sql模式贴一下核心原理通过group by 分组求和 之后 用order by 进行全局排序 之后在limit n 取你想要的 topn 排名上sql:[code="java"]select obj , cnt from ( select obj ,count(...2012-12-14 06:51:22 · 487 阅读 · 0 评论 -
Hive与表操作有关的语句
Hive与表操作有关的语句1.创建表的语句:Create [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMEN...2012-12-03 14:25:51 · 94 阅读 · 0 评论 -
hive中的LEFT SEMI JOIN
hive中的LEFT SEMI JOIN LEFT SEMI JOIN 是 IN/EXISTS 子查询的一种更高效的实现。Hive 当前没有实现 IN/EXISTS 子查询,所以你可以用 LEFT SEMI JOIN 重写你的子查询语句。LEFT SEMI JOIN 的限制是, JOIN 子句中右边的表只能在 ON 子句中设置过滤条件,在 WHERE 子句、SELEC...2012-11-28 14:06:29 · 155 阅读 · 0 评论 -
hive cli 操作表分区
hive表分区必须在表定义时创建partition a、单分区建表语句:create table day_table (id int, content string) partitioned by (dt string);单分区表,按天分区,在表结构中存在id,content,dt三列。以dt为文件夹区分b、双分区建表语句:create table day_hour_table...2012-08-10 14:04:06 · 105 阅读 · 0 评论 -
Hive 数据倾斜总结
Hive 数据倾斜总结转载:http://www.tbdata.org/archives/2109几个比较特殊的点都提到了,大家可以作为参考。在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map...原创 2012-08-03 14:19:51 · 185 阅读 · 0 评论 -
hive执行作业时reduce任务个数设置为多少合适?
Hive怎样决定reducer个数?Hadoop MapReduce程序中,reducer个数的设定极大影响执行效率 ,这使得Hive怎样决定reducer个数成为一个关键问题。遗憾的是Hive的 估计机制很弱,不指定reducer个数的情况下,Hive会猜测确定一个reducer个数,基于以下两个设定:1. hive.exec.reducers.bytes.per.reducer...2012-04-05 18:05:22 · 711 阅读 · 0 评论 -
JDBC 客户端 连接hive
Hive的JDBC连接博客分类: hiveJDBCDerbySQLSQL ServerHadoop一、环境Hadoop 0.20.2版本、Hive-0.5.0版本、JDK1.6二、使用目的1、一般来说我们对hive的操作都是通过cli来进行,也就是Linux的控制台,但是,这样做本质上是每个连接都存放一个元数据,各个之间都不相同,所以,对于这样的模式我建议是...2012-03-26 16:29:29 · 146 阅读 · 0 评论 -
hive 复杂数据结构嵌套
Hive hive 除了支持基本的数据结构hive 复杂的数据结构:[code="java"]{ array map struct}[/code]数据格式[code="java"]221190xxx9 0401:0.30 0402:0.81 1303:0.23 1502:0.21 1503:0.11 0307:0.17 1003:0.35...2013-03-14 16:03:03 · 1027 阅读 · 0 评论 -
hive 自定义udf
Hive的预定义UDF函数列表如下abs(x) - returns the absolute value of xacos(x) - returns the arc cosine of x if -12012-10-24 10:42:03 · 123 阅读 · 0 评论 -
hive Sort By/Order By/Cluster By/Distribute By
hive Sort By/Order By/Cluster By/Distribute By摘自:http://blog.csdn.net/yfkiss/article/details/8021562Order by[plain] view plaincopycolOrder: ( ASC | DESC ) orderBy: ORDER BY colName colOrd...2012-10-22 16:51:50 · 91 阅读 · 0 评论 -
hive 操作语句
https://cwiki.apache.org/confluence/display/Hive/LanguageManual2012-02-13 14:13:10 · 82 阅读 · 0 评论 -
hive+hbase整合
用hbase做数据库,但由于hbase没有类sql查询方式,所以操作和计算数据非常不方便,于是整合hive,让hive支撑在hbase数据库层面 的 hql查询.hive也即 做数据仓库1. 基于Hadoop+Hive架构对海量数据进行查询:http://blog.csdn.net/kunshan_shenbin/article/details/71053192. HBase ...2012-02-03 16:48:55 · 187 阅读 · 0 评论 -
使用MySQL作为Hive的Metastore
使用MySQL作为Hive的Metastore前提是成功安装了HIVE和MYSQL在hive-site.xml中添加如下内容,指定METASTORE的地址以及连接方式[code="java"] javax.jdo.option.ConnectionURL jdbc:mysql://10.20.151.10:3306/hive?characte...2012-02-01 17:56:48 · 91 阅读 · 0 评论 -
hive sql 语法
hive 基本语法 本来想讲自己用到的写出来了,结果发现一个比较全面的文章已经介绍过了,那我就不在重新发明轮子了,我也跟着学习一下。转自:http://jeffxie.blog.51cto.com/1365360/317524DDL Operations创建表hive> CREATE TABLE pokes (foo INT, bar STRING); 创建表并...2012-02-01 10:14:24 · 96 阅读 · 0 评论 -
博客地址变更
all the guys of visiting the blog : I had changed my blog stie to wordpress ,that is my blog site [url]http://wwangcg.com[/url]thanks everyone that support me at so along time .thank...2013-08-16 10:29:38 · 199 阅读 · 0 评论