Spark 安装 及 HelloWorld

说明

本篇主要介绍 Spark 的安装 及 HelloWorld程序(其实是计算一个文件的行数)。
环境: spark-2.1.0-bin-hadoop2.6.tgz

安装

Spark 其实属于免安装,所有的安装过程只不过是解压:

tar -zxvf spark-2.1.0-bin-hadoop2.6.tgz

Hello World

Spark可以进入到shell环境中进行操作,提供有 pySpark 和 scalaSpark,可根据个人偏好选择。

# 进入pySpark
./bin/pyspark

# 进入scalaSpark
./bin/spark-shell

# 启动过程会看到如下内容:
……
# 由于我使用的IP是 10.0.2.113 ,所以我的WEB UI 是在 http://10.0.2.113:4040
Spark context Web UI available at http://10.0.2.113:4040

# Spark context 可在shell 环境中通过 sc 访问
Spark context available as 'sc' (master = local[*], app id = local-1490427434293).

# Spark session 可在shell 环境中通过 spark 访问
Spark session available as 'spark'.
……

# =======================Hello World ===================
# 在 spark shell 中统计 Spark 根目录下 README.MD 文件的行数

# 1. 将 README.MD 文件读入 RDD
scala> val lines = sc.textFile("./README.md")

    lines: org.apache.spark.rdd.RDD[String] = ./README.md MapPartitionsRDD[5] at textFile at <console>:24
# 2. 计算文件行数
scala> lines.count()

    res2: Long = 104

# 3. 获取第一行内容
scala> lines.first()

    res3: String = # Apache Spark

# 4. 查看帮助
scala> :help

# 5. 退出spark shell
scala> :quit
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值