hive
成都往右
趁着年轻多熬夜
展开
-
Hive的安装详解
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。hive的元数据信息是存在外部数据库的,这里使用mysql,所以建议先把hadoop装起来(hadoop的安装集群),mysql的安装下面有介绍(建议在同一台机器上,别装windows上不然可能会出现一堆问题)。原创 2017-10-20 12:31:54 · 733 阅读 · 0 评论 -
Hive运行机制与使用
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。原创 2017-10-20 14:54:26 · 3053 阅读 · 1 评论 -
Hive的分桶详解
Hive分桶通俗点来说就是将表(或者分区,也就是hdfs上的目录而真正的数据是存储在该目录下的文件)中文件分成几个文件去存储。比如表buck(目录,里面存放了某个文件如sz.data)文件中本来是1000000条数据,由于在处理大规模数据集时,在开发和修改查询的阶段,如果能在数据集的一小部分数据上试运行查询,会带来很多方便,所以我们可以分4个文件去存储。原创 2017-10-22 16:51:51 · 1894 阅读 · 0 评论 -
Hive中sql的使用
如果学过mysql或者oracle等数据库那么hive的sql肯定不会有问题,只有比较小的出入。原创 2017-10-22 20:04:45 · 1795 阅读 · 0 评论 -
Hive自定义函数与transform的使用
hive是给了我们很多内置函数的,比如转大小写,截取字符串等,具体的都在官方文档里面。但是并不是所有的函数都能满足我们的需求,所以hive提供了给我们自定义函数的功能。原创 2017-10-23 11:45:50 · 933 阅读 · 0 评论 -
Hive中一个较难的面试sql-级联求和
这是一个名企经常出的面试题,级联求和。原创 2017-10-23 13:02:12 · 1393 阅读 · 1 评论 -
Azkaban实战案例
1/Commond类型多job执行 ,2/hdfs操作,3/mapreduce程序,4/hive脚本任务原创 2017-10-26 22:29:22 · 3795 阅读 · 0 评论