Hive
大数据的江湖
天道酬勤
天行健,君子以自强不息;
地势坤,君子以厚德载物.
展开
-
parquet和orc 一次说清了
背景 随着大数据时代的到来,越来越多的数据流向了Hadoop生态圈,同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop生态圈的快速发展过程中,涌现了一批开源的数据分析引擎,例如Hive、Spark SQL、Impala、Pre...转载 2021-01-10 21:33:11 · 692 阅读 · 0 评论 -
Hive 中生成随机唯一标识ID的方法
HIVE中处理的数据往往比较多,在处理数据的时候希望给处理得到的数据一个ID标识,这时候可以用到UUID。 UUID的算法的核心思想是结合机器的网卡、当地时间、一个随即数来生成UUID。从理论上讲,如果一台机器每秒产生10000000个UUID,则可以保证(概率意义上)3240年不重复。UUID 的目的,是让分布式系统中的所有元素,都能有唯一的标识,而不需要透过中央控制端来做标识。如此一来,每个人都可以建立...转载 2021-01-10 19:56:38 · 4754 阅读 · 0 评论 -
大数据之数据仓库工具Hive
数据仓库工具Hive可是省事了介绍原理安装介绍1.hive简介Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。2.1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Yarn上3.优点:操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手),通用性强;缺点:Hive的HQL表达能力有限;Hive的效率比原创 2020-06-26 16:40:29 · 561 阅读 · 0 评论