pyspark运行模式

spark有两种不同的交互式运行环境:一种是给python语言提供的(pyspark),一种是给scala语言提供的。

如何进入pyspark?

假设现在已经进入linux环境了,然后执行以下命令进入pyspark中:

master-url的值可取以下值:

local[*]  逻辑CPU的个数 = 整个物理CPU的个数 * 每个CPU的核数

最后一个连接集群 HOST:主机名    PORT:端口号

集群模式:

 

spark应用程序

1:导入相应类

2:生成配置的上下文信息

3:生成sparkcontext对象,即生成名为sc的指挥官

4:本地文件地址

5:该句将文本文件加载进来生成一个rdd

6:logData为rdd的名称,对rdd进行过滤所有包含a的行

 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值