hive
等你628
这个作者很懒,什么都没留下…
展开
-
Hive体系结构
Hive是一种建立在hadoop上的数据仓库架构,可以用来进行数据ETL,并对存储在hdfs中的数据进行查询、分析和管理。 1、Hive架构与基本组成 下面是Hive的架构图。 图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分: (1)用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hi原创 2016-06-22 10:34:29 · 2796 阅读 · 1 评论 -
hive小结
1)hive加载数据hive加载本地数据和和hdfs数据区别 加载外部表可以为本地文件,加载内部表,要把数据加载到hdfs上 2)hive中索引 索引 deferred 延期的 compact 紧压的 3)hive中数据格式 hive可以自定义文件格式。textfile,sequencefile 数据格式: avro file orc file ORC File,它的全名是Op原创 2016-07-03 18:11:35 · 424 阅读 · 0 评论 -
hiveQL详解
一、创建表 1.创建内部表 //create & load create table tab_ip(id int,name string,ip string,country string) row format delimited fields terminated by ‘,’ stored as textfile; 2、创建外部表 //exter原创 2016-06-22 11:44:46 · 613 阅读 · 0 评论 -
Ubuntu下Hive配置(MySQL数据库的安装方式)
Hive只在一个节点上安装即可一、安装MySQL•Ubuntu 采用apt-get安装 •sudo apt-get install mysql-server •建立数据库hive •create database hive •创建hive用户,并授权 •grant all on hive.* to hive@’%’ identified by ‘hive’; •flush privi原创 2016-06-22 22:46:05 · 2438 阅读 · 0 评论 -
Hive中的InputFormat、OutputFormat与SerDe
Hive中,默认使用的是TextInputFormat,一行表示一条记录。在每条记录(一行中),默认使用^A分割各个字段。在有些时候,我们往往面对多行,结构化的文档,并需要将其导入Hive处理,此时,就需要自定义InputFormat、OutputFormat,以及SerDe了。首先来理清这三者之间的关系,我们直接引用Hive官方说法:SerDe is a short name for “Seria原创 2016-06-22 23:08:54 · 3642 阅读 · 0 评论 -
对Hive的大表进行动态分区
分区是在处理大型事实表时常用的方法。分区的好处在于缩小查询扫描范围,从而提高速度。分区分为两种:静态分区static partition和动态分区dynamic partition。静态分区和动态分区的区别在于导入数据时,是手动输入分区名称,还是通过数据来判断数据分区。对于大数据批量导入来说,显然采用动态分区更为简单方便。 对现存hive表的分区 首先,新建一张我们需要的分区以后的表create原创 2016-06-22 23:31:08 · 776 阅读 · 0 评论 -
hive 自定义函数
1、首先定义函数 2、将函数添加到hive中原创 2016-06-22 23:33:59 · 870 阅读 · 0 评论