目标！半天学完《Spark快速大数据分析》核心概念

最新推荐文章于 2022-08-18 12:51:01 发布

机器变得更残忍

最新推荐文章于 2022-08-18 12:51:01 发布

阅读量698

点赞数 2

分类专栏： python 日常琐事大数据文章标签：大数据 spark python hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jiaqiangbandongg/article/details/77151632

版权

在写下这个标题的时候已经下午了，看来只有半天时间了（汗

初衷以及Spark简介

最近找工作，发现很多公司都要求Hadoop、Spark，我平时也没有啥这方面的需求所以没学，而且这个东西真正用起来需要分布式集群。
于是买了本书《Spark快速大数据分析》，挺薄的，而且是三种语言写的(java,scala,python)，如果只看Python，目测一天就能学完核心概念。

配置环境

学习一门新技术，环境配置估计就能把一堆人卡死在门外，不过这也意味着环境配好你也就离成功不远了，想想就有点小激动。

下载Spark

下载地址
https://spark.apache.org/downloads.html
书上是spark 1.2，包类型为hadoop 2.4
不过最新版是spark 2.2，包类型为hadoop 2.7
于是就下了最新版，一般来说，不按照教程的版本会出现各种问题

仔细看了书上的配置教程，好像也没做啥事，也就解压运行bin\pyspark，然后正常用。
我照着做果然报错了，这和书上说的不一样。

原来还需要Hadoop

这就尴尬了，书上也没说咋配，于是参考了这篇，还是很简单的过程。

新建环境变量SPARK_HOME值为spark根目录
新建环境变量HADOOP_HOME值为hadoop根目录
spark下的bin目录和hadoop下的bin目录添加到系统变量path里

然后运行pyspark

果然还是报错了

参考了这篇解决了
原来是缺少winutils.exe这个文件，应该是hadoop\bin目录下的，需要到https://github.com/steveloughran/winutils 下载
然后执行命令来修改权限

winutils chmod

最低0.47元/天解锁文章

机器变得更残忍

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
目标！半天学完《Spark快速大数据分析》核心概念

在写下这个标题的时候已经下午了，看来只有半天时间了（汗初衷以及Spark简介最近找工作，发现很多公司都要求Hadoop、Spark，我平时也没有啥这方面的需求所以没学，而且这个东西真正用起来需要分布式集群。于是买了本书《Spark快速大数据分析》，挺薄的，而且是三种语言写的(java,scala,python)，如果只看Python，目测一天就能学完核心概念。配置环境学习一门新技术，环境配置
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。