pyspark 入门小案例

pyspark 入门小案例

导入相应的依赖包

import sys

from pyspark import SparkConf, SparkContext
设置对应的导入

if name == ‘main’:
if len(sys.argv)!=3:
print("Usage:wordcount ", sys.stderr)
sys.exit(-1)

配置配置参数
conf=SparkConf()
sc=SparkContext(conf=conf);
定义一个打印方法
def printresult():
    counts=sc.textFile(sys.argv[1]).flatMap(lambda x:x.split(" "))\
        .map(lambda x:(x,1)).reduceByKey(lambda x,y:x+y)
    print(counts.collect())

    output=counts.collect()

    for (i,j) in output:
        print("%s:%s" %(i,j))
定义导出方法
def save_file():
    sc.textFile(sys.argv[1]).flatMap(lambda x:x.split(" ")).map(lambda x:(x,1)).reduceByKey(lambda x,y:x+y).saveAsTextFile(sys.argv[2])

存储最终统计的文件

save_file()
关闭程序,释放空间
sc.stop()

放到服务器上运行

./spark-submit --master local[4] --name pyspark1006 /opt/pyspark_scripty/py_wc.py file:///opt/hello.txt file:///opt/pyspark_scripty/wc

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值