Apache Spark 通过容器镜像拉起实例

Apache Spark™ 是一种多语言引擎,用于在单节点机器或集群上执行数据工程、数据科学和机器学习。它提供 Scala、Java、Python 和 R 中的高级 API,以及支持用于数据分析的通用计算图的优化引擎。它还支持一组丰富的高级工具,包括用于 SQL 和 DataFrames 的 Spark SQL、用于 pandas 工作负载的 Spark 上的 pandas API、用于机器学习的 MLlib、用于图形处理的 GraphX 和用于流处理的结构化流。

Apache Spark™ - Unified Engine for large-scale data analytics

拉取镜像

https://registry.hub.docker.com/r/apache/spark

直接获取镜像命令如下:

docker pull apache/spark

在线文档


您还可以再网上找到最新的 Spark 文档,包括编程指南。此 README 文件仅包含基本设置说明。

Documentation | Apache Spark


交互式 Scala Shell

开始使用 Spark 的最简单方法是通过 Scala shell:

docker run -it apache/spark /opt/spark/bin/spark-shell

尝试以下命令,它应该返回 1,000,000,000:

scala> spark.range(1000 * 1000 * 1000).count()


​在 Kubernetes 上运行 Spark

https://spark.apache.org/docs/latest/running-on-kubernetes.html ⁠icon-default.png?t=O83Ahttps://spark.apache.org/docs/latest/running-on-kubernetes.html

 在 Spark 上运行 Python

使用https://hub.docker.com/r/apache/spark-pyicon-default.png?t=O83Ahttps://hub.docker.com/r/apache/spark-py

 在 Spark 上运行 R

使用https://hub.docker.com/r/apache/spark-ricon-default.png?t=O83Ahttps://hub.docker.com/r/apache/spark-r

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值