大数据之pysaprk安装

最新推荐文章于 2024-04-28 02:36:38 发布

Turing Yang

最新推荐文章于 2024-04-28 02:36:38 发布

阅读量307

点赞数

分类专栏：大数据文章标签：大数据 spark

本文链接：https://blog.csdn.net/gf18381303772/article/details/110136846

版权

大数据专栏收录该内容

2 篇文章 0 订阅

订阅专栏

windows下安装Pyspark

pyspark简介
总结

pyspark简介

Spark主要是由Scala语言开发，为了方便和其他系统集成而不引入scala相关依赖，部分实现使用Java语言开发，例如External Shuffle Service等。总体来说，Spark是由JVM语言实现，会运行在JVM中。然而，Spark除了提供Scala/Java开发接口外，还提供了Python、R等语言的开发接口，为了保证Spark核心实现的独立性，Spark仅在外围做包装，实现对不同语言的开发支持，本文主要介绍Python Spark在windows下的安装，对于原理部分安装完了再研究吧。

Anaconda

第一步，首先安装Anaconda，Anaconda是python的一个库管理系统，里面已经集成了100多个常用的用于科学计算的库，如numpy，pandas，scipy等。下载地址

Pyspark

这不就是最简单的了，使用pip安装pyspark。

pip install pyspark

当然，如果速度太慢，可以添加清华镜像，这样速度就会很快了。

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pysaprk

jdk

上面的步骤完成了，就已经差不多了，但是这个时候如果直接运行pyspark程序，会提示没有java，这个时候，我们必须安装jdk了，大家都知道，jdk属于甲骨文公司的，下载还要注册，比较麻烦，这里推荐大家下载openjdk，通过名字大家就知道，这是一个开源的。而且最大的好处就是，不需要编译，绿色安装。下载地址。接下来大家都知道了，当然就是配置系统变量了，其中包括三个系统变量，分别为java_home,classpath,path。具体配置方法参照这篇博文。

winutils

上面的步骤完成了，就可以运行了，虽然会报错，但是不影响程序的正常运行，但是看着那些红红的log日志，就很烦，所以就想解决。这个文件主要是为了模拟linux下的hadoop的运行环境。下载地址，接下需要配置系统环境，新建变量HADOOP_HOME和path,具体可参考这边博客。

总结

遇到问题不可怕，可怕的是不知道怎么解决。一起进步吧。大数据未来可期！

Turing Yang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
大数据之pysaprk安装

windows下安装Pysparkpyspark简介AnacondaPysparkjdkwinutils总结pyspark简介Spark主要是由Scala语言开发，为了方便和其他系统集成而不引入scala相关依赖，部分实现使用Java语言开发，例如External Shuffle Service等。总体来说，Spark是由JVM语言实现，会运行在JVM中。然而，Spark除了提供Scala/Java开发接口外，还提供了Python、R等语言的开发接口，为了保证Spark核心实现的独立性，Spark仅在
复制链接

扫一扫