原创

jupyter pyspark 开发环境搭建(在线、离线)

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_24452475/article/details/79843616

应用场景

  • 在Jupter中,使用 Python语言进行数据分析是一种潮流/趋势。
  • 如何在 Jupyter 中引入 Spark ,从而进行大数据清洗、挖掘等是值得研究的问题。
  • 技术方案的选择有很多,然由于多方面原因终究要探索出适合自己的~

实现方案


搭建过程

  • α 下载软件包

  • β 解压安装

    • 安装 findspark
      • /root/anaconda2/bin/pip install findspark-1.1.0-py2.py3-none-any.whl
      • 解压 spark-2.3.0-bin-hadoop2.7. tgz
        • tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -C your-spark-home
      • 配置 SPARK_HOME
        export SPARK_HOME=your-spark-home
        export PATH=$SPARK_HOME/bin:$PATH
        export PYSPARK_DRIVER_PYTHON=jupyter
        export PYSPARK_DRIVER_PYTHON_OPTS='notebook'
  • γ 测试过程
    • JSON 格式测试数据
[{"itemNo" : 1, "name" : "ferrari", "speed" : 259 , "weight": 800},  {"itemNo" : 2, "name" : "jaguar", "speed" : 274 , "weight":998},  {"itemNo" : 3, "name" : "mercedes", "speed" : 340 , "weight": 1800},  {"itemNo" : 4, "name" : "audi", "speed" : 345 , "weight": 875},  {"itemNo" : 5, "name" : "lamborghini", "speed" : 355 , "weight": 1490},{"itemNo" : 6, "name" : "chevrolet", "speed" : 260 , "weight": 900},  {"itemNo" : 7, "name" : "ford", "speed" : 250 , "weight": 1061},  {"itemNo" : 8, "name" : "porche", "speed" : 320 , "weight": 1490},  {"itemNo" : 9, "name" : "bmw", "speed" : 325 , "weight": 1190},  {"itemNo" : 10, "name" : "mercedes-benz", "speed" : 312 , "weight": 1567}]

    • 测试代码
import findspark
import os
findspark.init()

%matplotlib inline

from pyspark.sql import SparkSession

spark = SparkSession \
    .builder \
    .appName("Python Spark SQL basic example") \
    .config("spark.some.config.option", "some-value") \
    .getOrCreate()

df = spark.read.json('./cars_datas.json')

filtered = df[['speed']]
dc = filtered.toPandas()
dc.plot();

    • 测试效果
      • effect

其他命令

  • 查看当前内核列表
    • jupyter kernelspec list
  • 卸载 Jupyter kernel
    • sudo jupyter kernelspec uninstall your-kernel-name

Refereneces


文章最后发布于: 2018-04-07 18:28:51
展开阅读全文
0 个人打赏

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 1024 设计师: 上身试试

分享到微信朋友圈

×

扫一扫,手机浏览