2019年02月_TMH_ITBOY

10月 07月 06月 05月 04月 02月 01月

原创读《Spark内核设计的艺术架构设计与实现》笔记之三----SparkConf & 内置的RPC框架

SparkConfSparkConf 是Spark的配置类,Spark中的每一个组件都直接或者间接的使用这个类存储的属性.SparkConf中,使用ConcurrentHaskMap来存储这些属性,其中key以及value都是String类型的./** 线程安全的,用于存储配置的各种属性 */ private val settings = new ConcurrentHashMap[Str...

2019-02-18 14:02:49 302

原创读《Spark内核设计的艺术架构设计与实现》笔记之二----Spark模块设计

Spark模块设计整个Spark主要由Spark Core,Spark SQL,Spark Streaming,GraphX,MLlib组成,Spark Core是整个Spark体系的核心引擎,Spark SQL,Spark Streaming,GraphX,MLlib都是建立在Spark Core基础之上的.Spark的核心功能Spark Core中提供了Spark最基础最核心的功能,主...

2019-02-15 16:41:00 1036

原创读《Spark内核设计的艺术架构设计与实现》笔记之之一----初识Spark

初识SparkSpark是一个通用的并行计算框架,由加州伯克利大学的AMP实验室开发于2009年,并于2010年开源.2013年在Apache旗下成长为大数据领域最活跃得开源框架之一,Spark也是基于map reduce算法模型实现的分布式计算框架.Spark 针对MapReduce做了大量优化.减少磁盘I/O Hadoop MapReduce的map端将中间输出和结果存储在磁盘中...

2019-02-15 16:37:43 317

多线程读取DBF文件

使用Java NIO 包下的RandomAccessFile读取DBF文件(可以拓展到多线程读取大文件)

2019-04-01

windows-hadoop-bin-2.0.0.zip

解压后,配置变量名为HADOOP_HOME,值为解压路径,即可在eclipse或者Idea中本地执行hadoop的计算任务

2018-05-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 读《Spark内核设计的艺术 架构设计与实现》笔记之三----SparkConf & 内置的RPC框架

原创 读《Spark内核设计的艺术 架构设计与实现》笔记之二----Spark模块设计