Hadoop14-Spark常用

python接口

环境:

from pyspark import SparkContext, SparkConf

conf = SparkConf().setAppName(appName).setMaster(master)
sc = SparkContext(conf=conf)

rdd

data = [1, 2, 3, 4, 5]
distData = sc.parallelize(data)

kv数据,groupByKey

data2 = [('a',1),('b',2),('c',3),('a',4),('b',5)]
rdd2 = sc.parallelize(data)

kv,join

data2 = [('a',1),('b',2),('c',3),('a',4),('b',5)]
rdd2 = sc.parallelize(data2)

data3 = [('a',1),('b',2)]
rdd3 = sc.parallelize(data3)


rdd2.join(rdd3)
[('a', (1, 1)), ('a', (4, 1)), ('b', (2, 2)), ('b', (5, 2))]  

spark 估算pi

def inside(p):
    x, y = random.random(), random.random()
    return x*x + y*y < 1

count = sc.parallelize(xrange(0, NUM_SAMPLES)) \
             .filter(inside).count()
print "Pi is roughly %f" % (4.0 * count / NUM_SAMPLES)

https://spark.apache.org/examples.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值