Bigdatda-Hive
文章平均质量分 86
礼彬fly
这个作者很懒,什么都没留下…
展开
-
Hive面试题—理清hive应用思路
Hive面试题—理清hive应用思路问题:有一张很大的表:TRLOG该表大概有2T左右。[sql] view plaincopyTRLOG: CREATE TABLE TRLOG (PLATFORM string, USER_ID int, CLICK_TIME string, CLICK_URL string)转载 2015-07-06 14:29:50 · 5920 阅读 · 1 评论 -
Hive 4种文件格式
Hive 4种文件格式 原文地址:http://www.cnblogs.com/Richardzhu/p/3613661.html http://www.iteblog.com/archives/1014hive文件存储格式包括以下几类:1、TEXTFILE2、SEQUENCEFILE3、RCFILE4、ORCFILE(0.转载 2015-05-17 23:12:53 · 2693 阅读 · 0 评论 -
【Hive自定义UDF函数】 与 【hive字符串函数】
Hive的UDF 整理笔记Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。Hive的UDF开发只需要重构UDF类的evaluate函数即可。例:package com.hrj.hive.udf;import org.apache.hadoop.hive.ql.exec.UDF;pu转载 2015-05-16 22:37:38 · 3142 阅读 · 0 评论 -
Hive函数大全
原文地址:http://www.ifree168.com/lib/?p=12426一、关系运算:二、数学运算:三、逻辑运算:四、数值计算五、日期函数六、条件函数七、字符串函数八、集合统计函数九、复合类型构建操作十、复杂类型访问操作十一、复杂类型长度统计函数一、关系运算转载 2015-05-16 23:25:38 · 830 阅读 · 0 评论 -
HIVE中join、semi join、outer join举例详解
举例子:hive> select * from zz0; 111111 222222 888888 hive> select * from zz1; 111111 333333 444444 888888 hive> select * from zz0 join zz1 on zz0.uid = zz1.uid; 111111 111111 888转载 2015-05-16 14:53:13 · 765 阅读 · 0 评论 -
Hive总结(二)hive基本操作
阅读本文章可以带着下面问题:1.与传统数据库对比,找出他们的区别2.熟练写出增删改查(面试必备)创建表:hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the first being an integer and th转载 2015-05-16 12:37:17 · 615 阅读 · 0 评论 -
Hive总结(一)hive初始
1.没有接触,不知道这个事物是什么,所以不会产生任何问题。2.接触了,但是不知道他是什么,反正我每天都在用。3.有一定的了解,不够透彻。那么hive,1.我们对它了解多少?2.它到底是什么?3.hive和hadoop是什么关系?扩展:hbase和hive是什么关系?Hive最初是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求转载 2015-05-16 12:25:50 · 517 阅读 · 0 评论 -
Hive总结(八)Hive数据导出三种方式
Hive总结(八)Hive数据导出三种方式今天我们再谈谈Hive中的三种不同的数据导出方式。根据导出的地方不一样,将这些方式分为三种:(1)、导出到本地文件系统;(2)、导出到HDFS中;(3)、导出到Hive的另一个表中。为了避免单纯的文字,我将一步一步地用命令进行说明。一、导出到本地文件系统 hive> inse转载 2015-05-16 01:18:45 · 797 阅读 · 0 评论 -
linux安装mysql出错( file /usr/share/mysql/czech/errmsg.sys from install of MySQL-server-5.5.31-2.el6.i6)
linux下安装MySQL出错! [root@hadoop0 local]# rpm -i MySQL-server-5.5.31-2.el6.i686.rpm file /usr/share/mysql/czech/errmsg.sys from install of MySQL-server-5.5.31-2.el6.i686 conflicts with转载 2015-05-15 20:14:57 · 885 阅读 · 0 评论 -
hive常用函数
hive常用函数字符串函数字符串长度函数:length Java代码 语法: length(string A) 返回值: int 说明:返回字符串A的长度 举例: hive> select length(‘abcedfg’) from dual; 7 字符串反转函转载 2015-05-16 23:32:38 · 1028 阅读 · 0 评论 -
【hive内置基本数据类型】 和 【内置复合数据类型用法】
【hive内置数据类型】Hive的内置数据类型可以分为两大类:(1)、基础数据类型;(2)、复杂数据类型。其中,基础数据类型包括:TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DECIMAL,CHAR,VARCHAR,DATE。下面的表格列出这些基础类型所占的字节以及从什么版本开始支持这转载 2015-05-18 01:38:09 · 2217 阅读 · 0 评论 -
Hive 查询优化总结
Hive 查询优化总结阅读目录一、join优化二、group by 优化三、合并小文件四、Hive实现(not) in五、排序优化六、使用分区七、Distinct 使用八、Hql使用自定义的mapred脚本九、UDTF十、聚合函数count和sum一、join优化Join查找操作的基本原则:应该将条目少的表/子转载 2015-05-18 14:06:07 · 749 阅读 · 0 评论 -
Hive JOIN使用详解
Hive是基于Hadoop平台的,它提供了类似SQL一样的查询语言HQL。有了Hive,如果使用过SQL语言,并且不理解Hadoop MapReduce运行原理,也就无法通过编程来实现MR,但是你仍然可以很容易地编写出特定查询分析的HQL语句,通过使用类似SQL的语法,将HQL查询语句提交Hive系统执行查询分析,最终Hive会帮你转换成底层Hadoop能够理解的MR Job。对于最基本的HQ转载 2015-05-30 21:53:41 · 1134 阅读 · 0 评论 -
hive权限控制介绍
问题导读1.hive权限控制需要配置那个配置文件?2.Hive授权的核心是什么?3.如何实现 角色的授权和撤销?Hive从0.10版本(包含0.10版本)以后可以通过元数据来控制权限,Hive-0.10之前的版本对权限的控制主要是通过Linux的用户和用户组来控制,不能对Hive表的CREATE、SELECT、DROP等操作进行控制,当然Hive基于元数据来控制权限也不转载 2015-07-04 22:37:12 · 1331 阅读 · 0 评论 -
hive 配置参数说明
hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) true hive.exec.mode.local.auto.inputbytes.max 如果 hive.exec.mode.local.auto 为 true,当输入文件大小小于此阈值时可以自动在本地模式运行,默转载 2015-05-24 23:15:39 · 1148 阅读 · 0 评论 -
Hive教程之metastore的三种模式
原文地址:http://www.micmiu.com/bigdata/hive/hive-metastore-config/Hive中metastore(元数据存储)的三种方式:内嵌Derby方式Local方式Remote方式[一]、内嵌Derby方式这个是Hive默认的启动模式,一般用于单元测试,这种存储方式有一个缺点:在同一时间只能有一个转载 2015-07-01 14:33:45 · 3160 阅读 · 0 评论 -
hive大数据倾斜总结
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的转载 2015-05-19 20:05:56 · 1461 阅读 · 0 评论 -
Hive总结(九)Hive体系结构
1、Hive架构与基本组成 下面是Hive的架构图。图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分: (1)用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户连接至Hive Server。在启动 Client模式转载 2015-05-19 20:04:15 · 1582 阅读 · 0 评论 -
Lateral View语法
Lateral View语法lateralView: LATERAL VIEW udtf(expression) tableAlias AS columnAlias (',' columnAlias)*fromClause: FROM baseTable (lateralView)*描述lateral view用于和split, explode等UDTF一起使用,它能够将一行转载 2015-05-18 01:14:47 · 1121 阅读 · 0 评论 -
Hive 的 CSV Serde介绍和使用
Hive 的 CSV Serde介绍和使用CSV格式的文件也称为逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号。在本文中的CSV格式的数据就不是简单的逗号分割的),其文件以纯文本形式存储表格数据(数字和文本)。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或原创 2015-05-18 00:52:35 · 8514 阅读 · 0 评论 -
Hive总结(七)Hive四种数据导入方式
Hive的几种常见的数据导入方式这里介绍四种:(1)、从本地文件系统中导入数据到Hive表;(2)、从HDFS上导入数据到Hive表;(3)、从别的表中查询出相应的数据并导入到Hive表中;(4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。一、从本地文件系统中导入数据到Hive表先在Hive里面创建好表,如下:转载 2015-05-16 01:18:11 · 556 阅读 · 0 评论 -
hive 启动问题记录 及解决方法
问题1:Caused by: javax.jdo.JDODataStoreException: Required table missing : "`VERSION`" in Catalog "" Schema "". DataNucleus requires this table to perform its persistence operations. Either your Met转载 2015-05-15 19:45:53 · 1601 阅读 · 0 评论 -
Hive 中的日志
日志记录了程序运行的过程,是一种查找问题的利器。Hive中的日志分为两种1. 系统日志,记录了hive的运行情况,错误状况。2. Job 日志,记录了Hive 中job的执行的历史过程。系统日志存储在什么地方呢 ?在hive/conf/ hive-log4j.properties 文件中记录了Hive日志的存储情况,默认的存储情况:hive.root.log转载 2015-05-01 23:00:30 · 589 阅读 · 1 评论 -
(7-3)hive的脚本执行
不进入hive,显示默认数据库default的表:[root@i-love-you hive-0.14.0]# bin/hive -e "show tables"Logging initialized using configuration in jar:file:/usr/local/hive-0.14.0/lib/hive-common-0.14.0.jar!/hive-log4j.pr原创 2015-04-21 21:15:42 · 763 阅读 · 0 评论 -
(7-2)hive参数配置使用
hive参数配置使用在代码中引用时使用${...}命名空间 使用权限 描述 hivevar 可读写 $hive -d name=baozi;hiveconf 可读写 $hive --hiveconf hive.cli.print.current.db=true; $hive --hiveconf hive.cli.print.header=true;system原创 2015-04-21 21:14:17 · 1059 阅读 · 0 评论 -
(7-1)hive-0.14.0安装及命令行运行
-------------------------------使用默认Derby内嵌数据库,存储metastore信息,hive解压即可使用:解压:tar -zxvf apache-hive-0.14.0-bin.tar.gz改名:mv apache-hive-0.14.0-bin hive-0.14.0查看conf文件夹:ll-rw-r--r--. 1 baozi game原创 2015-04-20 14:34:45 · 1003 阅读 · 0 评论 -
hive创建四种表
hive创建四种表 内部表、分区表、桶表、外部表 1、 内部表:待上传的内容:创建一个tb1表,两个字段之间用Tab键隔开:执行命令:CREATE TABLE tb1(name string,id int) ROW FORMATDELIMITED FIELDS TERMINATED BY '\t'; hive> CREATE TABLE tb1(name s原创 2015-03-04 14:07:44 · 6688 阅读 · 0 评论 -
eclipse连接hive
eclipse连接hive 在访问HDFS的基础上,把hive的lib目录下面的jar导进eclipse里面去。 代码:package hive; importjava.sql.Connection;importjava.sql.DriverManager;importjava.sql.ResultSet;importjava.sql.Statement; pub原创 2015-03-04 14:16:15 · 1870 阅读 · 0 评论 -
Hive+mysql安装
Hive+mysql安装 1、用到的软件:hive-0.9.0.tar.gzMySQL-server-5.5.10-1.rhel5.x86_64.rpmMySQL-client-5.5.10-1.rhel5.x86_64.rpmmysql-connector-java-5.1.10.jar mysql下载地址:http://downloads.mysql.com/a原创 2015-03-03 17:40:13 · 1619 阅读 · 1 评论 -
Hadoop Hive sql语法详解
Hadoop Hive sql语法详解 Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容,这套SQL 简称Hive SQL,使不熟悉转载 2015-02-10 20:51:55 · 1029 阅读 · 0 评论 -
Hive简介
Hive简介1、hive基本概念hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive可以在HDFS上构建数据仓原创 2014-09-24 20:38:40 · 1410 阅读 · 0 评论 -
(7-4)hive与外部资源的交互
与Linux交互命令:hive> !ls;aabinconfderby.logexampleshcataloglibLICENSEmetastore_dbmydateNOTICEREADME.txtRELEASE_NOTES.txtscriptsshellhive> !pwd;/usr/local/hive-0.14.0hive>与HDFS交互原创 2015-04-21 21:17:14 · 776 阅读 · 0 评论 -
(7-6)hive的set命令
hive控制台set命令:set hive.cli.print.current.db=true;set hive.metastore.warehouse.dir=/hive[root@i-love-you hive-0.14.0]# bin/hiveLogging initialized using configuration in jar:file:/usr/local/h原创 2015-04-21 21:23:26 · 2095 阅读 · 0 评论 -
Hive启动报错解决方法
Hive启动报错解决方法启动Hive时报错如下:wamdm@WAMDM5:~/hive/build/dist/bin$ ./hiveException in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hive/conf/HiveConf at java.lang.Cl转载 2015-04-26 23:03:06 · 3456 阅读 · 0 评论 -
max key length is 767 bytes
com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Specified key was too long; max key length is 767 bytes错误描述:hive> load data local inpath "/root/partition_table.dat" into table partition_原创 2015-05-01 23:03:06 · 2231 阅读 · 0 评论 -
(7-5)hive的web界面和JDBC模式
Web界面安装:下载apache-hive-0.14.0-src.tar.gz:把 apache-hive-0.14.0-src.tar.gz\apache-hive-0.14.0-src\hwi\web 里的所有文件及文件夹打成war包,复制到hive/lib里面。复制 tools.jar(jdk的lib包下面的jar包) 到 hive/lib下。修改hive-site.xml原创 2015-04-21 21:18:58 · 757 阅读 · 0 评论 -
(7-12)hive导出数据
(7-12)hive导出数据---------------------------------------1、重定向把hive中的数据导出来:-------------------------例如把 t5表的数据导出来:[root@baozi hive]# bin/hive -e "select * from t5" > t5Logging initialized usin原创 2015-04-29 23:07:34 · 1006 阅读 · 0 评论 -
(7-11)hive加载数据
(7-11)hive加载数据----------------------------------------------------1、从文件中装载数据--------------------------------------------------------hive> create table t3 like t1;OKTime taken: 0.296 seconds原创 2015-04-29 23:06:30 · 1418 阅读 · 0 评论 -
(7-10)hive表视图、索引
(7-10)hive表视图、索引------------------------------------视图------------------------------------//创建视图hive> create view viem_table AS select t2.name from t2;OKTime taken: 1.556 seconds//查看视图hi原创 2015-04-29 23:04:00 · 758 阅读 · 0 评论 -
(7-8)hive数据库、表、字段定义
(7-8)hive数据库、表、字段定义--------------------------------------------------------------1、数据库的定义-----------------------------------------------------------1.1、创建数据库:hive> show databases;OKdefault原创 2015-04-29 23:02:54 · 1552 阅读 · 0 评论