Spark+Jupyter=在线文本数据处理逻辑测试平台

最新推荐文章于 2024-11-29 12:44:51 发布

蔡菜寀

最新推荐文章于 2024-11-29 12:44:51 发布

阅读量2.2k

点赞数

文章标签： spark python 测试

本文链接：https://blog.csdn.net/caizezhi1/article/details/52119623

版权

本文介绍了如何将Spark与Jupyter结合，创建一个在线文本数据处理逻辑测试平台。通过在Linux或Mac系统上配置环境，包括Java、Python、Spark和IPython（Jupyter），设置环境变量，配置Spark及Hadoop，最后启动Jupyter Notebook，实现便捷的代码逻辑测试。

摘要由CSDN通过智能技术生成

前言

最近在学习Spark，除了原生的Scala以外，Spark还提供了一个pyspark支持Python。以前曾经搭过一个基于IPython notebook的在线代码运行平台，其中用到的numpy，scipy，matplotlib，pandas等文本/数据处理库让我觉得如果能和pyspark结合说不定是个不错的组合——可以直观的测试代码逻辑，比起shell不知道要高到哪里去了。

至于这个平台，你可以搭载在树莓派，阿里云ecs，甚至是本机架设，方便快捷简单易上手。

事实上对于这篇文章，你也可以单纯把它看作是单机布置伪分布式Spark的教程，因为前面步骤一样一样的。

前期准备

硬件：

Linux/Mac计算机 x1

Linux用Ubuntu作为示例，Mac默认有HomeBrew或者Macport

软件：

Java环境，配置过JAVA_HOME
Python环境，默认为Python2

需联网，没有网络的请自行下载源码包并上传至机器

下载

Spark:

前往Apache官网下载:
- hadoop2.6.0.tar.gz
- spark-1.6.1-bin-hadoop2.6.tar.gz
- scala-2.10.6.tar.gz

下载并统一使用

tar xvzf XXX.tar.gz

进行解压，之后执行

$mv hadoop2.6.0 /usr/local/hadoop
$mv spark-1.6.1-bin-hadoop2.6 /usr/local/spark
$mv scala-2.10.6 /usr/lcoal/scala

将文件夹移动到/usr/local备用

IPython：

之前用的Ipython notebook已经独立出来变成了jupyter，在这个步骤Python首先要安装setuptools，之后执行

$easy_install pip virtualenv

Virtualenv是Python的一个沙盒环境，适合配置不同版本的库来适配不同应用。
之后用Virtualenv创建一个IPython ENV

$cd /your/IPython/path/
$virtualenv ipython
$source ipython/bin/activate
(ipython)$

当前缀出现(ipython)的时候，说明这个env已经创建成功并正在

最低0.47元/天解锁文章