hive
文章平均质量分 52
oaimm
hadoop菜鸟
展开
-
hive join
原理hive执行引擎会将HQL“翻译”成为map-reduce任务,如果多张表使用同一列做join则将被翻译成一个reduce,否则将被翻译成多个map-reduce任务。eg:SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1)将被翻译成1个map-reduce任转载 2014-02-28 18:38:26 · 579 阅读 · 0 评论 -
hive youhua
Currently, some relevant settings are:NameNode Heap Size: 4096mbDataNode maximum Java heap size: 4096mbHadoop maximum Java heap size: 4096mbJava Options for MapReduce tasks: 768mbset map原创 2014-03-11 13:15:07 · 637 阅读 · 0 评论 -
FAILED: Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask
Total MapReduce jobs = 114/08/24 20:29:11 WARN conf.Configuration: mapred.max.split.size is deprecated. Instead, use mapreduce.input.fileinputformat.split.maxsize14/08/24 20:29:11 WARN con原创 2014-08-26 14:03:08 · 10554 阅读 · 0 评论 -
neicun
OOM从进程入手:HADOOP 5个守护进程,HADOOP_HAPSIZE 参数设置每个守护进程的内存大小,hadoop_namemode_opt 存储每个块的索引信息,既然是name的还有个secondarynode_opt。再说说MAP和reduceMR任务分配是根据Containers分配,数量由CPU core+内存来确定,mapred.taskacker原创 2014-05-28 18:43:24 · 1026 阅读 · 0 评论 -
Hive下的变量使用
Hive下的变量使用博客分类: HiveHive变量Hive的变量前面有一个命名空间,包括三个hiveconf,system,env,还有一个hivevar1. hiveconf的命名空间指的是hive-site.xml下面的配置变量值。2. system的命名空间是系统的变量,包括JVM的运行环境。3. env的命名空间,是指环境变量,转载 2014-03-13 15:20:37 · 878 阅读 · 0 评论 -
Hive 内建操作符与函数开发
Hive 内建操作符与函数开发目录:初始HiveHive安装与配置Hive 内建操作符与函数开发Hive JDBChive参数Hive 高级编程Hive QLHive Shell 基本操作hive 优化Hive体系结构Hive的原理 配套视频课程转载 2014-03-12 15:57:40 · 1671 阅读 · 0 评论 -
hive-site.xml for hive-0.12.0
原文地址:http://blog.yidooo.net/archives/apache-hive-installation.html安装前在安装Hive之前,请保证已经安装了Hadoop。Apache Hive安装及配置安装Mysql本文选用mysql作为Hive的metastore。帮助1转载 2014-03-04 14:11:00 · 2030 阅读 · 0 评论 -
hive set
You need to use the special hiveconf for variable substitution. e.g.hive> set CURRENT_DATE='2012-09-16';hive> select * from foo where day >= '${hiveconf:CURRENT_DATE}'similarly, you could pass转载 2014-03-12 17:08:05 · 1008 阅读 · 0 评论 -
笛卡尔积
引言 在前篇文章中(SQL查询入门(上篇),我对数据库查询的基本概念以及单表查询做了详细的解释,本篇文章中,主要说明SQL中的各种连接以及使用范围,以及更进一步的解释关系代数法和关系演算法对在同一条查询的不同思路。 多表连接简介 在关系数据库中,一个查询往往会涉及多个表,因为很少有数据库只有一个表,而如果大多查询只涉及到一个表的,那么那个表也往往低于第三范式,存在大量冗余和异常。转载 2014-04-01 18:25:22 · 11114 阅读 · 0 评论 -
hive 常用命令
建表:create table b (id int,name string)row format DELIMITED FIELDS TERMINATED BY ','LINES TERMINATED BY '\n' STORED AS SEQUENCEFILE;load data local inpath '/tmp/test1' into table a;原创 2014-02-28 19:00:45 · 759 阅读 · 0 评论 -
hive bug
use dw;ALTER TABLE DWS_SELLER_DELIVERY_STAT_D DROP PARTITION(DT<'TIMEPROCESS(${DATE},1)');原创 2014-04-24 14:12:00 · 640 阅读 · 0 评论 -
yarn is running beyond physical memory limits 问题解决
URL:http://I149-43:8005/taskdetails.jsp?jobid=job_1397098636321_27548&tipid=task_1397098636321_27548_r_000016-----Diagnostic Messages for this Task:Container [pid=7830,containerID=container_13原创 2014-05-08 13:22:00 · 33655 阅读 · 3 评论