大数据之pysaprk安装

pyspark简介

Spark主要是由Scala语言开发,为了方便和其他系统集成而不引入scala相关依赖,部分实现使用Java语言开发,例如External Shuffle Service等。总体来说,Spark是由JVM语言实现,会运行在JVM中。然而,Spark除了提供Scala/Java开发接口外,还提供了Python、R等语言的开发接口,为了保证Spark核心实现的独立性,Spark仅在外围做包装,实现对不同语言的开发支持,本文主要介绍Python Spark在windows下的安装,对于原理部分安装完了再研究吧。

Anaconda

第一步,首先安装Anaconda,Anaconda是python的一个库管理系统,里面已经集成了100多个常用的用于科学计算的库,如numpy,pandas,scipy等。下载地址

Pyspark

这不就是最简单的了,使用pip安装pyspark。

pip install pyspark

当然,如果速度太慢,可以添加清华镜像,这样速度就会很快了。

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pysaprk

jdk

上面的步骤完成了,就已经差不多了,但是这个时候如果直接运行pyspark程序,会提示没有java,这个时候,我们必须安装jdk了,大家都知道,jdk属于甲骨文公司的,下载还要注册,比较麻烦,这里推荐大家下载openjdk,通过名字大家就知道,这是一个开源的。而且最大的好处就是,不需要编译,绿色安装。下载地址。接下来大家都知道了,当然就是配置系统变量了,其中包括三个系统变量,分别为java_home,classpath,path。具体配置方法参照这篇博文

winutils

上面的步骤完成了,就可以运行了,虽然会报错,但是不影响程序的正常运行,但是看着那些红红的log日志,就很烦,所以就想解决。这个文件主要是为了模拟linux下的hadoop的运行环境。下载地址,接下需要配置系统环境,新建变量HADOOP_HOMEpath,具体可参考这边博客

总结

遇到问题不可怕,可怕的是不知道怎么解决。一起进步吧。大数据未来可期!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Turing Yang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值