![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据处理层
文章平均质量分 91
新-农
新人入坑,精通各种HelloWorld
展开
-
Hive的Parquet存储与LZO压缩
在Hive中,为我们提供了五种文件存储格式1、Textfile2、Sequencefile3、Rcfile4、Orcfile5、Parquet这里主要介绍一下Parquet,列式存储一、概念1、Apache Parquet是Hadoop生态圈中一种新型列式存储格式,它可以兼容Hadoop生态圈中大多数计算框架(Mapreduce、Spark等),被多种查询引擎支持(Hive、Impala、Drill等),并且它是语言和平台无关的。Parquet最初是由Twitter和Cloudera合作原创 2022-04-18 23:43:34 · 3763 阅读 · 0 评论 -
一篇文章搞懂Flink的状态(State)与容错机制(CheckPoint)
首先的话,先来介绍一下,Flink的状态1、首先 ,这个状态,放在内存2、每次我接受到数据,需要计算的时候,会在拿到数据之后,先去获取存储在内存中的状态,(比如我在求和,我就会先把状态里面的结果拿出来,然后跟现在的累加)3、拿到状态,进行运算,算完,去更新状态,然后数据继续往下走补充:状态不能跨任务访问,状态跟特定的算子关联算子需要预先注册其状态 注册个Flink一个并行度里面都有一个分区状态1、某个算子或者key当前的状态,因为处理的是实时数据,我们需要对这个状态进原创 2022-03-10 10:54:12 · 3129 阅读 · 2 评论 -
Hive的元数据存储与元数据表
一、元数据(metadata)元数据(Meta Date),主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。一般会通过元数据资料库(Metadata Repository)来统一地存储和管理元数据,其主要目的是使数据仓库的设计、部署、操作和管理能达成协同和一致。元数据包括表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等。元数据包含用Hive创建的database、table等的元信原创 2022-03-30 22:25:54 · 7053 阅读 · 0 评论