hive
文章平均质量分 77
Mojoooo
思考,学习,不循规蹈矩的程序猿
展开
-
Hive笔记九:Hive输入输出适配类(CSV,XML)
在最初使用 hive ,应该说上手还是挺快的。 Hive 提供的类 SQL 语句与 mysql 语句极为相似,语法上有大量相同的地方,这给我们上手带来了很大的方便,但是要得心应手地写好这些语句,还需要对 hive 有较好的了解,才能结合 hive 特色写出精妙的语句。关于 hive 语言的详细语法可参考官方 wiki 的语言手册:http://wiki.apache.org/hadoop/转载 2015-10-03 23:13:54 · 688 阅读 · 0 评论 -
Hive笔记十一:查询进阶
通过Hive提供的order by子句可以让最终的输出结果整体有序。但是因为Hive是基于Hadoop之上的,要生成这种整体有序的结果,就必须强迫Hadoop只利用一个Reduce来完成处理。这种方式的副作用就是回降低效率。如果你不需要最终结果整体有序,你就可以使用sort by子句来进行排序。这种排序操作只保证每个Reduce的输出是有序的。如果你希望某些特定行被同一个Reduce处理,转载 2015-10-03 23:20:00 · 412 阅读 · 0 评论 -
Hive笔记七:Hive的数据导出
根据导出的地方不一样,将这些方式分为三种:(1)、导出到本地文件系统;(2)、导出到HDFS中;(3)、导出到Hive的另一个表中。为了避免单纯的文字,我将一步一步地用命令进行说明。一、导出到本地文件系统 hive> insert overwrite local directory '/home/wyp/wyp' > se转载 2015-10-03 23:06:34 · 427 阅读 · 0 评论 -
Hive笔记六:数据导入
Hive的几种常见的数据导入方式这里介绍四种:(1)、从本地文件系统中导入数据到Hive表;(2)、从HDFS上导入数据到Hive表;(3)、从别的表中查询出相应的数据并导入到Hive表中;(4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。一、从本地文件系统中导入数据到Hive表先在Hive里面创建好表,如下:转载 2015-10-03 22:49:03 · 356 阅读 · 0 评论 -
Hive笔记四:Hive的组件和工作流程
1、组件:元存储(Metastore )-存储“系统目录以及关于表、列、分区等的元数据”的组件。驱动(Driver )- 控制 HiveQL 生命周期的组件,当 HiveQL 查询穿过 Hive时。该驱动管理着会话句柄以及任何会话的统计。查询编译器(Query Compiler) - 是一个组件,将HiveQL编译成有向无环图(directed acyclic graph,转载 2015-10-03 22:34:13 · 859 阅读 · 0 评论 -
Hive笔记五:入门教程
摘要: Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer转载 2015-10-03 22:47:49 · 970 阅读 · 0 评论 -
Hive笔记三:基本操作
创建表:hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the first being an integer and the other a string给表改名:hive> ALTER TABLE table_name RE转载 2015-10-03 22:28:18 · 356 阅读 · 0 评论 -
Mysql的Grant命令
本文实例,运行于 MySQL 5.0 及以上版本。 MySQL 赋予用户权限命令的简单格式可概括为:grant 权限 on 数据库对象 to 用户 一、grant 普通数据用户,查询、插入、更新、删除 数据库中所有表数据的权利。grant select on testdb.* to common_user@'%'grant insert on testdb.* to com原创 2015-10-03 22:26:22 · 565 阅读 · 0 评论 -
Hive笔记八:Hive体系结构
1、Hive架构与基本组成 下面是Hive的架构图。图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分: (1)用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户连接至Hive Server。在启动 Client模式转载 2015-10-03 23:09:49 · 1023 阅读 · 0 评论 -
Hive笔记二:安装和配置
Hive的安装:前提需要:1.Hadoop集群 2.mysql-server(建议使用mysql-server而不是hive自带的数据库) 3.JDK一:下载Hive,上传到服务器节点,可以是任意节点 tar -zvxf hive-1.2.1.tar.gz 可以配置一个软连接到home目录下 ln -sf /原创 2015-10-03 21:22:46 · 365 阅读 · 0 评论 -
Hive笔记一:初识
Hive最初是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生和发展的。那么,到底什么是Hive,我们先看看Hive官网Wiki是如何介绍Hive的(https://cwiki.apache.org/confluence/display/Hive/Home):The Apache Hive data warehouse software facilit转载 2015-10-03 21:09:42 · 785 阅读 · 0 评论 -
Hive笔记十:自定义函数UDF和UDAF
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:a)文件格式:Text File,Sequence Fileb)内存中的数据格式: Java Inte转载 2015-10-03 23:17:24 · 751 阅读 · 0 评论 -
Hive笔记十二:实例
背景假设有一个学生各门课的成绩的表单,应用hive取出每科成绩前100名的学生成绩。这个就是典型在分组取Top N的需求。 解决思路对于取出每科成绩前100名的学生成绩,针对学生成绩表,根据学科,成绩做order by排序,然后对排序后的成绩,执行自定义函数row_number(),必须带一个或者多个列参数,如ROW_NUMBER(col1, ....),它转载 2015-10-03 23:20:57 · 493 阅读 · 0 评论