spark运行python代码

spark运行python代码一般使用命令
spark-submit test.py这样的形式来运行
如果代码中设置了参数的话,还需要在命令行中传入参数

其中spark默认使用的hdfs中的文档运行
如果要运行本地文件的话,可以加上file://

例如:

 spark-submit wordcount.py file:///home/tst

这样的形式

再简单记录一下spark的textfile函数,该函数返回的是一个RDD
使用spark处理数据的时候首先都要有一个RDD,然后使用这个自带的一些方法
来处理,方法如下:

转换:
    map
    filter
    flatmap
    sample
    groupByKey
    reduceByKey
    union
    join
    cogroup
    crossProduct
    mapValues
    sort
    partitionBy
操作:
    count
    collect
    reduce
    lookup
    save
在转换方法中的函数执行完后生成的还是一个RDD结构
而操作函数返回的就不是RDD了
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值