0.参考文章
1.pyspark练习
进入到spark目录,
然后采用默认的设置运行pyspark
./bin/pyspark
配置master参数,使用4个Worker线程本地化运行Spark(local[k]应该根据运行机器的CPU核数确定)
./bin/pyspark –master local[4]
增加的–py-files,是将指定的文件加到search path,以便之后import
./bin/pyspark –master local[4] –py-files code.py
MASTER_URL
含义
local
使用一个Worker线程本地化运行Spark(默认)
local[k]
使用K个Worker线程本地化运行Spark
local[*]
使用K个Worker线程本地化运行Spark(这里K自动设置为机器的CPU核数)
spark://HOST:PORT
连接到指定的Spark单机版集群(Spark standalone cluster)master。必须使用master所配置的接口,默认接口7077.如spark://10.10.10.10:7077
mesos://HOST:PORT
连接到指定的Mesos集群。host参数是Moses master的hostname。必须使用master所配置的接口,默认接口是5050.
yarn-client
以客户端模式连接到yarn集群,集群位置由环境变量HADOOP_CONF_DIR决定.
yarn-cluster
以集群模式连接到yarn集群,同样由HADOOP_CONF_DIR决定连接到哪儿