![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
文章平均质量分 80
Monstar_L
这个作者很懒,什么都没留下…
展开
-
Hive指标统计篇
大数据指标计算,通过Hive实现原创 2022-06-15 13:50:59 · 1117 阅读 · 1 评论 -
Hadoop文件压缩及存储格式
目录一、压缩格式Hive 数据压缩的优缺点Hive 压缩格式对应的Hadoop编码/解码器方式Hive 常见的压缩格式对应的压缩性能比较扩展下:怎样对压缩模式进行评价?二、存储格式Hive 中的 TEXTFILE 文件存储格式Hive 中的 SequenceFile 文件存储格式Hive 中的 RCFILE 文件存储格式Hive 中的常用文件存储格式 ORCFILEHive 中的常用文件存储格式 Parquet什么是行式存储和列式存储对于 Hive表文件存转载 2022-04-11 15:44:47 · 1765 阅读 · 0 评论 -
数据仓库之极限存储实施
数据仓库之极限存储实施一、前言本文参考大数据之路--阿里巴巴大数据实践内容,针对数据仓库中拉链表的存储进行了设计与实践。在本公司实际处理拉链表过程中,采用的是每天分区全量存储历史所有数据,这样极大地增加的存储的成本和数据查询效率。针对此种情况,通过极限存储的方式进行优化,此种方式会增加两个时间戳字段(分区字段:开始时间分区:start_date和结束时间分区:end_date),将所有以天为粒度的变更数据都记录下来。二、原累计表处理方式2.1 原数仓表结构:CREATE TABLE I原创 2020-08-01 19:21:06 · 1190 阅读 · 0 评论 -
数仓Hive基础调优
引言此篇文章主要针对hive在执行hql时候,所面临的执行效率慢、数据倾斜、jobs任务过多情况进行分析调优;由于本人也是初次了解hive调优方面知识,在网上也查阅了很多资料,写下此篇文章也是为了巩固自己的知识点及能够与各位同学相互交流学习。以下本人会针对配置参数、HQL语句两个方面进行相关调优说明,另外在优化过程中,需要结合业务逻辑去优化会达到事半功倍的效果,后续会陆续更新此方面知识。...原创 2019-06-13 14:23:09 · 701 阅读 · 0 评论 -
Hive函数篇
引言Hive是基于hadoop的数据仓库工具,能够将一张结构化的数据文件映射为一张数据库表。以便于在Hive中通过类似于传统sql(Hive中我们叫hql)做数据分析等工作。Hive默认计算模型是MapperReduce,将hql转换成MR任务进行计算;在Hive中还有Hive on Spark的模式,这里仅做了解。本文主要是在工作中使用Hive的时候,对一些用到的函数进行记录,以便后续查阅...原创 2019-06-10 23:17:52 · 1605 阅读 · 0 评论