pyspark简介
Spark主要是由Scala语言开发,为了方便和其他系统集成而不引入scala相关依赖,部分实现使用Java语言开发,例如External Shuffle Service等。总体来说,Spark是由JVM语言实现,会运行在JVM中。然而,Spark除了提供Scala/Java开发接口外,还提供了Python、R等语言的开发接口,为了保证Spark核心实现的独立性,Spark仅在外围做包装,实现对不同语言的开发支持,本文主要介绍Python Spark在windows下的安装,对于原理部分安装完了再研究吧。
Anaconda
第一步,首先安装Anaconda,Anaconda是python的一个库管理系统,里面已经集成了100多个常用的用于科学计算的库,如numpy,pandas,scipy等。下载地址
Pyspark
这不就是最简单的了,使用pip安装pyspark。
pip install pyspark
当然,如果速度太慢,可以添加清华镜像,这样速度就会很快了。
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pysaprk
jdk
上面的步骤完成了,就已经差不多了,但是这个时候如果直接运行pyspark程序,会提示没有java,这个时候,我们必须安装jdk了,大家都知道,jdk属于甲骨文公司的,下载还要注册,比较麻烦,这里推荐大家下载openjdk,通过名字大家就知道,这是一个开源的。而且最大的好处就是,不需要编译,绿色安装。下载地址。接下来大家都知道了,当然就是配置系统变量了,其中包括三个系统变量,分别为java_home,classpath,path。具体配置方法参照这篇博文。
winutils
上面的步骤完成了,就可以运行了,虽然会报错,但是不影响程序的正常运行,但是看着那些红红的log日志,就很烦,所以就想解决。这个文件主要是为了模拟linux下的hadoop的运行环境。下载地址,接下需要配置系统环境,新建变量HADOOP_HOME和path,具体可参考这边博客。
总结
遇到问题不可怕,可怕的是不知道怎么解决。一起进步吧。大数据未来可期!