SparkEnv是Spark中比较重要的一部分,它构成了Spark赖以生存的环境,只有这个环境搭建好了,Spark才能正常运行
1.创建安全管理器securityManager,它主要负责spark在不同部署模式下的安全工作,包括认证(网络连接时需要,它有口令认证方式,认证的构成部分包括请求的URL,请求端口,请求协议等等),和密钥的生成(在yarn部署模式下,通过generateSecretKey()生成)等等,此外在之后构建序列器时使用Class.forName()也使用到了它
2. 创建远程消息传递机制actorSystem,它是Akka的内容,Akka是由Scala编写的库,实现了actor模型,创建actorSystem是通过包括创建消息传递的线程(默认为4个),批量大小(默认为15M),超时(默认为100秒)等其他配置
Akka是一个比较难搞但很重要的概念,至少Spark目前的消息传递都是采用这个机制,Akka需要花很多时间才能明白透彻,如果以后有时间可以继续深入研究
3.创建一个序列器对象
其中instantiateClass[Serializer]调用了自定义的方法instantiateClass[T],它是通过Class.forName()创建一个类,接着getConstructor(classOf[SparkConf]).newInstance(conf).asInstanceOf[T]创建该类的一个实例化对象即可。序列器在TaskScheduler以及DAGScheduler部分都会运用到,它可以将任务等序列化为Array[Byte]进行存储或者传输,与其相对的就为反序列化器
SparkEnv还有创建MapOutTracker,BlockManager等对象,具体的理解另起一篇来讲,未完待续。。。。