Hive
文章平均质量分 86
universe_ant
这个作者很懒,什么都没留下…
展开
-
HiveQL:数据操作
向管理表中转载数据 既然Hive没有行级别的数据插入、数据更新和删除操作,那么往表中装载数据的唯一途径就是使用一种“大量”的数据装载操作。或者通过其他方式仅仅将文件写入到正确的目录下。 例如:LOAD DATA LOCAL INPATH '${env:HOME}/california-employees' OVERWRITE INTO TABLE employees PARTITION (cou原创 2016-03-15 17:19:24 · 1670 阅读 · 0 评论 -
Hive——用户自定义函数(UDF)
Hive——用户自定义函数(UDF) 用户自定义函数(UDF)是一个允许用户扩展HiveQL的强大的功能。用户可以使用Java编写自己的UDF,一旦将用户自定义函数加入到用户会话中(交互式的或者通过脚本执行的),它们就将和内置的函数一样使用,甚至可以提供联机帮助。Hive具有多种类型的用户自定义函数,每一种都会针对输入数据执行特定“一类”的转换过程。 在ETL处理中,一个处理过程可能包含多个处理原创 2016-03-16 20:16:01 · 16864 阅读 · 0 评论 -
Hive简介
Hadoop生态系统中的Hive Hive不仅提供了一个熟悉SQL的用户所能熟悉的编程模型,还消除了大量的通用代码,甚至是哪些有时是不得不使用Java编写的令人棘手的代码。 Hive发行版中附带的模块有CLI,一个称为Hive网页界面(HWI)的简单 网页界面,以及可通过JDBC、ODBC和一个Thrift服务器进行编程访问的几个模块。 所有的命令和查询都会进入到Driver(驱动模块)、通过原创 2016-03-10 15:29:05 · 690 阅读 · 0 评论 -
Hive命令行界面
Hive命令行界面 命令行界面,也就是CLI,是和Hive交互的最常用的方式。使用CLI,用户可以创建表、检查模式以及查询表,等等。CLI选项 下面这个命令显示了CLI所提供的选项列表:[hadoop@localhost hive]$ hive --help --service cli usage: hive -d,--define <key=value> Variable原创 2016-03-10 21:22:44 · 5187 阅读 · 0 评论 -
Hive中的数据类型和文件格式
Hive支持关系型数据库中的大多数基本数据类型,同时支持关系型数据库中很少出现的3种集合数据类型,下面我们将简短地介绍一下这样做的原因。 其中一个需要考虑的因素就是这些数据类型是如何在文本文件中进行表示的,同时还要考虑文本存储中为了解决各种性能问题以及其他问题有哪些替代方案。和大多数的数据库相比,Hive具有一个独特的功能,那就是其对于数据在文件中的编码方式具有非常大的类活性。大多数的数据库对原创 2016-03-13 18:55:15 · 6077 阅读 · 0 评论 -
HiveQL数据定义
Hive中的数据库 Hive中数据库的概念本质上仅仅是表的一个目录或者命名空间。然而,对于具有很多组和用户的大集群来说,这时非常有用的,因为这样可以避免表命名冲突。通常会使用数据库来将生产表组织成逻辑组。 如果用户没有显式指定数据库,那么将会使用默认的数据库default。 下面这个例子就展示了如何创建一个数据库:hive> CREATE DATABASE financials; 如果数据库原创 2016-03-14 00:08:18 · 671 阅读 · 0 评论 -
Hive 合并小文件
当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。 为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并。当然,在我们向一个表写数据时,也需要注意输出文件大小。 1.Map输入合并小文件 对应参数: set mapred.m转载 2016-08-05 12:41:41 · 2501 阅读 · 0 评论