![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
爱睡觉的考拉yxl
门头沟学院
展开
-
大数据组件学习5 —— Hive(一)
Hive是基于Hadoop的数仓建设工具,严格意义上不算数据库,只是将HDFS中的数据映射成为一张表,本身并不存储数据,适合对历史数据做离线批处理分析。 本文主要梳理归纳了关于Hive优化方面的知识点 1. 存储与压缩优化 一般在map输出阶段,最终输出阶段对结果进行压缩,一般采用 ORC/Parquet + snappy方式 顺便小结 ORC与Parquet的区别: ORC为列式存储结构 由stripe组成,stripe相当于RowGroup(行组)的概念,每个Stripe包含 Index原创 2022-05-02 10:50:20 · 98 阅读 · 0 评论 -
Spark框架(一) —— 缓存与checkpoint
今天开始挖新坑,开始总结Spark, 同时变更一下标题样式, 使内容更加明显。j Spark的核心在于RDD(弹性分布式数据集),但RDD具有一个特性: 只在处理过程中存在,一旦处理完释放。 这个特性的目的在于:最大化利用资源,老旧的RDD没用了,就从内存中清理,给后续计算腾空间 但是存在如下场景:后续的RDD‘需要基于之前某个被清理的RDD进行继承,但RDD早就被清理了 为了避免上述情况:使用持久化技术来解决 持久化技术分为两类 缓存 : 将某个RDD放入内存或者磁盘中,以备后续...原创 2022-04-27 09:11:03 · 896 阅读 · 0 评论