1. 安装
Linux环境
使用 jupyter notebook作为交互工具,可以用python,Scala语言编写。
具体看 Spark 初入门中启动spark的四种方式.
2. 第一个程序
python语言
在jupyter notebook新建python的notebook。
计算圆周率:
import random
num_samples = 100000000
def inside(p):
x, y = random.random(), random.random()
return x*x + y*y < 1
count = sc.parallelize(range(0, num_samples)).filter(inside).count()
pi = 4 * count / num_samples
print(pi)
sc.stop()
运行结果:
3.1417056
Scala版本
在notebook 选择 spylon-kernel,新建notebook。
val data = Seq((1,2,3), (4,5,6), (6,7,8), (9,19,10))
val ds = spark.createDataset(data)
ds.show()
结果:
data: Seq[(Int, Int, Int)] = List((1,2,3), (4,5,6), (6,7,8), (9,19,10))
ds: org.apache.spark.sql.Dataset[(Int, Int, Int)] = [_1: int, _2: int ... 1 more field]
参考: