pyspark程序 从hdfs上读取数据求其TopN,并将结果存回hdfs

该博客介绍了如何使用pyspark从hdfs读取数据,通过对蜀国武将的武力值进行排序,找出五虎上将,并将结果保存回hdfs。具体步骤包括数据读取、转换、排序和写入。
摘要由CSDN通过智能技术生成

问题:选出蜀国中五虎将

原始数据如下:
序号 姓名 武力值 国家
1 刘备 68 蜀国
2 马超 90 蜀国
3 黄忠 91 蜀国
4 魏延 76 蜀国
5 姜维 92 蜀国
6 关羽 96 蜀国
7 严颜 78 蜀国
8 孟达 64 蜀国
9 张飞 88 蜀国
10马谡 76 蜀国
11 赵云 95 蜀国
12 法正 88 蜀国

预期结果如下:
6 关羽 96 蜀国
11 赵云 95 蜀国
5 姜维 92 蜀国
3 黄忠 91 蜀国
2 马超 90 蜀国

新建数据文件
在这里插入图片描述

步骤

导入必要的包,因为用到的是pyspark,最好导入findspark,可以避免一些看不懂的错误
在这里插入图片描述
初始化sparkcontext,local为本地工作方式,topapp为随意取的名字
在这里插入图片描述
从hdfs上读取文件,并输出第一行看数据结构方便后面操作

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值