目标!半天学完《Spark快速大数据分析》核心概念

在写下这个标题的时候已经下午了,看来只有半天时间了(汗

初衷以及Spark简介

最近找工作,发现很多公司都要求Hadoop、Spark,我平时也没有啥这方面的需求所以没学,而且这个东西真正用起来需要分布式集群。
于是买了本书《Spark快速大数据分析》,挺薄的,而且是三种语言写的(java,scala,python),如果只看Python,目测一天就能学完核心概念。
s28300707.jpg

配置环境

学习一门新技术,环境配置估计就能把一堆人卡死在门外,不过这也意味着环境配好你也就离成功不远了,想想就有点小激动。

下载Spark

下载地址
https://spark.apache.org/downloads.html
书上是spark 1.2,包类型为hadoop 2.4
不过最新版是spark 2.2,包类型为hadoop 2.7
于是就下了最新版,一般来说,不按照教程的版本会出现各种问题

仔细看了书上的配置教程,好像也没做啥事,也就解压运行bin\pyspark,然后正常用。
我照着做果然报错了,这和书上说的不一样。

原来还需要Hadoop

1502444955505.jpg
这就尴尬了,书上也没说咋配,于是参考了这篇,还是很简单的过程。

新建环境变量SPARK_HOME值为spark根目录
新建环境变量HADOOP_HOME值为hadoop根目录
spark下的bin目录和hadoop下的bin目录添加到系统变量path里

然后运行pyspark

果然还是报错了

参考了这篇解决了
原来是缺少winutils.exe这个文件,应该是hadoop\bin目录下的,需要到https://github.com/steveloughran/winutils 下载
然后执行命令来修改权限

winutils chmod 777
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值