大数据作为当下做火热的新科技,其内容受到了来自各个领域的关注。在大数据的内涵中sapr是无法避免的重点,那么对于spark core你了解多少呢?其实,spark core包括各种spark的各种核心组件,它们能够对内存和硬盘进行操作,或者调用CPU进行计算。毕竟,SparkCore是Apache Spark的核心,是其他扩展模块的基础运行时环境,定义了RDD、DataFrame和DataSet。
相信很多人都知道spark是大数据不可获取的一部分,那么对于spark core你了解多少呢?下面我们就来具体的分析一下spark core的主要功能。
第一、SparkConf,用于管理Spark应用程序的各种配置信息。
第二、事件总线:SparkContext内部各组件之间使用事件——监听器模式异步调用的实现;
第三、内置的基于Netty的RPC框架,包括同步和异步的多种实现,RPC框架是Spark各组件之间进行通信的基础。
第四、SparkContext,用户开发的Spark应用程序的提交与执行都离不开SparkContex的支持。在正式提交应用程序之前,首先需要初始化SparkContext。SparkContext隐藏了网络通信、分布式部署、消息通信、存储体系、计算引擎、度量系统、文件服务、Web UI等内容,应用程序开发者只需要使用SparkContext提供的API完成功能开发;
第五、SparkEnv是Spark中的Task运行所必需的组件。
第六、调度系统,调度系统主要由DAGScheduler和TaskScheduler组成,它们都内置在SparkContext中。
第七、计算引擎,计算引擎由内存管理器(MemoryManager)、Tungsten、任务内存管理器(TaskMemory-Manager)、Task、外部排序器(ExternalSorter)、Shuffle管理器(ShuffleManager)等组成。
第八、度量系统:由Spark中的多种度量源(Source)和多种度量输出(Sink)构成,完成对整个Spark集群中各组件运行期状态的监控。
Spark作为大数据中的一个热点,一直都备受各个领域的关注,如今,随着各个行业对于大数据的认可和不断应用,大数据必将版样更加重要的角色。
Spark core作为大数据技术中的一个重点并不仅仅是以上这些内容,这里只是简单的总结出一些重点,希望对大家能够有所帮助。