大数据
文章平均质量分 88
鸭梨山大山大
这个作者很懒,什么都没留下…
展开
-
Spark内存计算内幕
首先我们来看一张Spark计算时的架构图。上图引入了很多术语:"Executor","Task","Cache","Worker Node"等等,当我开始学习Spark的时候,这几乎是整个互联网上唯一一张关于Spark架构的图了,我个人觉得该图缺失了一些很重要的概念或者是描述的。任何Spark的进程都是一个JVM进程,既然是一个JVM进程,那么就可以配置它的堆大小(-Xmx和-Xms),但是进程怎么使用堆内存和为什么需要它呢?下面是一个JVM堆空间...转载 2021-07-14 10:13:20 · 612 阅读 · 0 评论 -
Hadoop学习笔记 —— 概述(一)
**1 大数据部门组织结构****2 Hadoop概述**2.1 Hadoop发展史Hadoop是由Apache基金会所开发的分布式系统基础架构,主要解决海量数据的存储和海量数据的分析计算问题。Lucene框架是Doug Cutting开创的开源软件,用Java语言开发,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎。2001年底Lucene成为Apache基金会的一个子项目,对于海量数据的场景,Lucene面对与Google同样的困难,存储数原创 2021-04-23 17:56:14 · 1891 阅读 · 8 评论