在写下这个标题的时候已经下午了,看来只有半天时间了(汗
初衷以及Spark简介
最近找工作,发现很多公司都要求Hadoop、Spark,我平时也没有啥这方面的需求所以没学,而且这个东西真正用起来需要分布式集群。
于是买了本书《Spark快速大数据分析》,挺薄的,而且是三种语言写的(java,scala,python),如果只看Python,目测一天就能学完核心概念。
配置环境
学习一门新技术,环境配置估计就能把一堆人卡死在门外,不过这也意味着环境配好你也就离成功不远了,想想就有点小激动。
下载Spark
下载地址
https://spark.apache.org/downloads.html
书上是spark 1.2,包类型为hadoop 2.4
不过最新版是spark 2.2,包类型为hadoop 2.7
于是就下了最新版,一般来说,不按照教程的版本会出现各种问题
仔细看了书上的配置教程,好像也没做啥事,也就解压运行bin\pyspark
,然后正常用。
我照着做果然报错了,这和书上说的不一样。
原来还需要Hadoop
这就尴尬了,书上也没说咋配,于是参考了这篇,还是很简单的过程。
新建环境变量SPARK_HOME值为spark根目录
新建环境变量HADOOP_HOME值为hadoop根目录
spark下的bin目录和hadoop下的bin目录添加到系统变量path里
然后运行pyspark
果然还是报错了
参考了这篇解决了
原来是缺少winutils.exe
这个文件,应该是hadoop\bin
目录下的,需要到https://github.com/steveloughran/winutils 下载
然后执行命令来修改权限
winutils chmod