1、前言
Spark是继Hadoop,Hive,Storm之后开发的一款高效,便捷的大数据开源框架,其主要有Spark-core,Spark-SQL,Spark-Streaming,Spark-Mllib。并且它可以用单机模式,基于Mesos,Standalone,Yarn来开发。
其中,Spark一般可用来读取本地文件做离线处理用,Spark-SQL提供了一套偏向于传统SQL语句的命令,便于更多开发人员的使用,Spark-Streaming是用于实时处理的情况下,但目前而言相比于Storm的一条一条的信息处理,SparkStreaming还是偏向于批处理,而最后的Spark-MLlib是集合了目前最火的机器学习的部分重要算法,使得开发人员更加高效的利用这些API。
Spark的开发语言主要是Scala,Java,Python,但是Scala是开发效率最高的,这与它的函数式编程思维离不开,但是在某些情况下,比如小编的公司需要利用Java来开发,这便有些“坑”了,还好JAVA SE8提供了Stream式编程和Lambda表达式,使得开发起来相对也能容易一些了,日后我会逐步更新JAVA SE8的Lambda和Stream,以及Spark的更多应用,今天的内容主要是针对我们在Windows坏境下开发Spark会遇到的一个问题及解决办法。
2、配置文件
1、首先我们系统得配置JDK环境,基于Spark的开发习惯,建议使用JDK8以上版本,我们可以去官网下载JDK8,