hive
爱吃芝麻
没有永久的记忆,只有不忘的博客
展开
-
AVRO表
AVRO了解 Avro是一个数据序列化系统,设计用于支持大批量数据交换的应用。 它的主要特点有:支持二进制序列化方式,可以便捷,快速地处理大量数据;动态语言友好,Avro提供的机制使动态语言可以方便地处理Avro数据。 当前市场上有很多类似的序列化系统,如Google的Protocol Buffers, Facebook的Thrift。这些系统反响良好,完全可以满足普通应用的需求。针对重复开...原创 2019-11-26 21:19:22 · 352 阅读 · 0 评论 -
hive的索引机制
1)建立索引 在指定列上建立索引,会产生一张索引表(Hive的一张物理表),里面的字段包括,索引列的值、该值对应的HDFS文件路径、该值在文件中的偏移量; hive的索引是需要手动进行维护的 2)利用索引查询数据 ① 在执行索引字段查询时候,首先额外生成一个MR job,根据对索引列的过滤条件,从索引表中过滤出索引列的值对应的hdfs文件路径及偏移量,输出到hdfs上的一...原创 2019-11-26 20:39:39 · 711 阅读 · 0 评论 -
hive——DDL操作
--创建语句 create DATABASE/SCHEMA, TABLE, VIEW, FUNCTION, INDEX --删除语句 drop DATABASE/SCHEMA, TABLE, VIEW, FUNCTION, INDEX --清空语句 truncate table --修改语句 alter DATABASE/SCHEMA, TABLE, VIEW --查看创建语句 ...原创 2019-11-26 20:29:38 · 136 阅读 · 0 评论 -
hive的数据类型
1.1 基本类型 数据类型 大小 范围 示例 TINYINT 1byte -128 ~ 127 100Y SMALLINT 2byte -32,768 ~ 32,767 100S INT/INTEGER 4byte -2,147,483,648 ~ 2,147,483,647 100 BIGINT 8b...原创 2019-11-25 00:05:47 · 325 阅读 · 0 评论 -
hive概述
目录 HIVE介绍与原理分析 hive是Hadoop的数据仓储工具,用于存储和处理海量的结构话数据,使用sql解决mapreduce的编码问题,之前写了很多mapreduce,wordcout(单词统计)、排序、二次排序、最大值最小值、半连接、等等。对于传统的数据管理人员是困难的,而且耗时间facebook开源了一个数据仓储矿建。h可以通过sql解决mapreduce底层计算问题。...原创 2019-11-24 21:30:59 · 206 阅读 · 0 评论