说明
本篇主要介绍 Spark 的安装 及 HelloWorld程序(其实是计算一个文件的行数)。
环境: spark-2.1.0-bin-hadoop2.6.tgz
安装
Spark 其实属于免安装,所有的安装过程只不过是解压:
tar -zxvf spark-2.1.0-bin-hadoop2.6.tgz
Hello World
Spark可以进入到shell环境中进行操作,提供有 pySpark 和 scalaSpark,可根据个人偏好选择。
# 进入pySpark
./bin/pyspark
# 进入scalaSpark
./bin/spark-shell
# 启动过程会看到如下内容:
……
# 由于我使用的IP是 10.0.2.113 ,所以我的WEB UI 是在 http://10.0.2.113:4040
Spark context Web UI available at http://10.0.2.113:4040
# Spark context 可在shell 环境中通过 sc 访问
Spark context available as 'sc' (master = local[*], app id = local-1490427434293).
# Spark session 可在shell 环境中通过 spark 访问
Spark session available as 'spark'.
……
# =======================Hello World ===================
# 在 spark shell 中统计 Spark 根目录下 README.MD 文件的行数
# 1. 将 README.MD 文件读入 RDD
scala> val lines = sc.textFile("./README.md")
lines: org.apache.spark.rdd.RDD[String] = ./README.md MapPartitionsRDD[5] at textFile at <console>:24
# 2. 计算文件行数
scala> lines.count()
res2: Long = 104
# 3. 获取第一行内容
scala> lines.first()
res3: String = # Apache Spark
# 4. 查看帮助
scala> :help
# 5. 退出spark shell
scala> :quit