Zeppelin组件配置和使用:连接Spark

Spark的核心分析栈包括Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX等,面向批处理、流处理、图计算、机器学习等场景,实现了生态融合统一,基于相同的数据结构,可实现不同类型的计算任务。
在这里插入图片描述
Zeppelin针对spark提供了强大的语言解释器,常见的解释器包括:

  • %spark 运行scala代码,发送至Spark Core引擎执行
  • %sql 运行SparkSQL
  • %pyspark 运行python代码,发送至Spark Core引擎执行
  • %r 运行R代码,发送至SparkR引擎执行

本文以Spark的本地运行模式为例,介绍如何在Zeppelin中连接Spark引擎进行数据分析。

环境及版本信息

操作系统:CentOS 7.2
Zeppelin: 0.8.1
Spark: 2.3.2

配置spark解释器

Zeppelin默认的spark解释器包括%spark , %sql , %dep , %pyspark , %ipyspark , %r等子解释器,在实际应用中根据spark集群的参数修改具体的属性。
进入解释器配置界面,定位到spark解释器,修改master以下属性。

  • master
    spark的运行模式,默认为local[*],spark采用何种运行模式,参数可做以下配置:

local模式:使用local[*],[]中为线程数,*代表线程数与计算机的CPU核心数一致
standalone模式: 使用spark://master:7077
yarn模式:使用yarn-client或yarn-cluster
mesos模式:使用mesos://zk://zk1:2181,zk2:2182,zk3:2181/mesos或mesos://host:5050

在这里插入图片描述

测试

运行Zeppelin自带的Basic Features (Spark)案例。
本案例以银行分析数据bank.csv为例(下载地址https://s3.amazonaws.com/apache-zeppelin/tutorial/bank/bank.csv),分析客户年龄分布特征。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值