win10 64位系统下,搭建spark环境,并配置python+pycharm开发环境

本文介绍了在Windows 10 64位系统下搭建Spark开发环境的步骤,包括安装Java、Spark、Hadoop和Python环境,并详细说明了如何在PyCharm中配置开发环境,以便进行Spark的Python接口开发。
摘要由CSDN通过智能技术生成

因为个人需要,想要学习大数据的处理知识,在学习之前首先要搭建基本软件环境。


目前用的比较广泛的大数据平台基本都是基于hadoop生态圈的一系列软件,不过这两年spark异军突起,比hadoop生态中的MR的处理方式要快非常多,而且spark中的SQL、streaming、MLlib、GraphX等组件功能十分强大,所以选择搭建以spark为基础的大数据处理环境。


一、系统环境

理论上说,无论是hadoop,spark还是其他的分布式架构的大数据处理平台,最佳系统环境都是linux。不过我自己只是需要一个初步的仿真环境,能够便于学习spark的入门知识,并且基于小批量的数据实现简单的业务逻辑,之后才是考虑如何真正把spark部署到生产环境中。加上spark支持的java、python、scala这些开发语言都是跨平台的,代码迁移起来比较简单。


考虑上述需求,加上大多数人都是以windows作为自己最常用的系统,仿真环境也打算部署在我自己的pc上。

最终系统环境为:win10 64位系统。


二、部署spark环境


在windows上运行spark平台,需要同时部署java开发环境、spark环境、hadoop环境。

(一)安装java


访问网址:http://www.oracle.com/technetwork/java/javase/downloads/index.html,点击你想要安装版本的下载链接。


这里我选的是Java SE 8u151/ 8u152版本,可以看到同一版本的java下有三个不同的下载链接,分别是jdk、server jre和jre。关于jdk和jre的区别,可以阅读这篇博客:http://blog.csdn.net/zl386119974/article/details/18088867,我在这里选择的是jdk。


下载完成后,双击exe文件安装,安装过程不再赘述。


安装结束后,需要配置对应的java环境变量,配置方式如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值