- 博客(4)
- 资源 (6)
- 收藏
- 关注
原创 Hive进阶(2)—— 存储格式
存储格式基本概念官网:https://cwiki.apache.org/confluence/display/Hive/FileFormats官网介绍:Hive supports several file formats:* Text File* SequenceFile* RCFile* Avro Files* ORC Files* Parquet* Custom INPU...
2018-09-27 22:55:28 4009
原创 Hive进阶(1)—— 压缩
压缩简介 & 为什么使用压缩 & 常用压缩技术压缩简介用户行为数据 GB TB … 越来越大数据量越来越大 ==> 面对问题:如何高效的处理 ==> 优化Hadoop生态系统 :对数据进行压缩处理使得提高我们的数据处理效率如何选择和使用压缩 就是一个至关重要的问题 摆在我们面前压缩工具:winrar、7-zip压缩:使用压缩技术来把数据“减少”的过...
2018-09-24 20:11:12 1416
原创 Java内存模型
计算机内存模型计算机在执行程序时,每条指令都是在CPU中执行的,而指令执行的过程中,势必涉及到数据的读取和写入。由于程序运行过程中的临时数据是存放在主存(物理内存)当中的,这时就存在一个问题:由于CPU执行速度很快,而从内存读取数据和向内存写入数据的过程跟CPU执行指令的速度比起来要慢很多,因此如果任何时候对数据的操作都要通过和内存的交互来进行,那么就会大大降低指令执行的速度因此在CPU里...
2018-09-22 01:07:07 406
原创 Spark内存管理(4)—— UnifiedMemoryManager分析
Spark内存管理系列文章: Spark内存管理(1)—— 静态内存管理 Spark内存管理(2)—— 统一内存管理 Spark内存管理(3)—— 统一内存管理设计理念acquireExecutionMemory方法关注UnifiedMemoryManager中的accquireExecutionMemory方法: 当前的任务尝试从executor中获取numBytes这...
2018-09-12 12:30:29 1368
hadoop2.7.3 自定义实现机架感知(Java版本)
2017-04-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人