---------【Hive】
皮皮的雅客
这个作者很懒,什么都没留下…
展开
-
Avro 数据序列化
Apache Avro 是一个独立于编程语言的数据序列化系统。旨在解决Hadoop中Writable类型的不足:缺乏语言的可移植性。Avro 模式通常用json来写,数据通常采用二进制格式编码。Avro的使用 Avro 的使用可以分为两种:编译Schema和非编译Schema编译Schema定义schema:emp.avsc//json格式的文...原创 2018-08-14 22:53:57 · 1058 阅读 · 0 评论 -
hive的基本命令行操作
两种表结构managed table:托管表。删除表时,数据也删除。external table:外部表。删除表时,数据不删除。基本命令//创建表 外部表 t2$hive>CREATE external TABLE IF NOT EXISTS t2(id int,name string,age int) COMMENT 'xx' ROW FORMAT DE...原创 2018-08-11 22:26:16 · 10846 阅读 · 0 评论 -
hive自定义函数(UDF)
hive 不但为我们提供了丰富的函数库,而且还提供了允许我们扩展的Java接口(UDF),使我们能便捷的自定义函数,实现更多复杂的功能。如下是几个自定义函数:几个命令//查看所有函数$hive> show functions;//查看函数的使用方法$hive> desc function 函数名;两数和(AddUDF)/** * 自定义...原创 2018-08-13 10:52:36 · 168 阅读 · 0 评论 -
安装配置hive仓库
hive 是基于Hadoop的数据仓库,所以在安装hive之前需要先安装配置好hadoop环境,同时需要开启hadoop的hdfs模块和yarn模块(yarn模块用于资源调度)。本文需要使用MySQL存放hive的元数据,所以请先在本机上安装配置MySQL说在前面工作环境:VMware® Workstation 12 Pro 12.5.6 build-5528349li...原创 2018-08-08 22:53:59 · 233 阅读 · 0 评论 -
通过远程jdbc方式连接到hive数据仓库
hive端口只能开启一个,开启多个会有阻塞,不利于并发访问。在通过jdbc远程访问hive数据仓库时,需要启动 hiveserver2服务器,并通过 beeline命令行 连接到 hiveserver2服务器1. 启动hiveserver2服务器,监听端口100002. 通过beeline命令行连接到hiveserver2$>beeline ...原创 2018-08-08 22:55:56 · 649 阅读 · 0 评论