大数据分布式计算工具Spark数据计算实战讲解(filter方法,distinct方法,sortby方法)(2)

img
img

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!


##  distinct算子


功能:对rdd数据进行去重,返回新rdd



from pyspark import SparkConf, SparkContext
import os
os.environ[‘pyspark_python’] = “D:/python/JIESHIQI/python.exe”
#创建一个sparkconf类对象
conf = SparkConf().setMaster(“local[*]”).setAppName(“test_spark_app”)

#基于sparkconf类对象创建sparkcontext类对象
sc = SparkContext(conf=conf)

#准备一个rdd
rdd = sc.parallelize([1,2,3,4,5,2,1,3,4,5])
#对rdd的数据进行过滤

rdd2 = rdd.filter(lambda num: num % 2 == 0)

print(rdd.distinct().collect())
#[1, 2, 3, 4, 5]


## sortby算子


功能:对rdd数据进行排序,基于你指定的排序依据



from pyspark import SparkConf, SparkContext
import os
os.environ[‘pyspark_python’] = “D:/python/JIESHIQI/python.exe”
#创建一个sparkconf类对象
conf = SparkConf().setMaster(“local[*]”).setAppName(“test_spark_app”)

#基于sparkconf类对象创建sparkcontext类对象
sc = SparkContext(conf=conf)
#读取文件信息
rdd = sc.textFile(“D:/hello.txt”)
#取出全部的单词
word_rdd = rdd.flatMap(lambda x: x.split(" "))
print(word_rdd.collect())
#[‘apple’, ‘bean’, ‘banana’, ‘spark’, ‘haoop’, ‘python’, ‘java’, ‘go’, ‘c++’]

#将所有单词都转换成二元元组,单词为key,value设置为1
rdd2 = word_rdd.map(lambda word: (word, 1))
print(rdd2.collect())
#[(‘apple’, 1), (‘bean’, 1), (‘banana’, 1), (‘spark’, 1), (‘haoop’, 1), (‘python’, 1), (‘java’, 1), (‘go’, 1), (‘c++’, 1)]

#分组并求和
rdd3 = rdd2.reduceByKey(lambda a, b: a+b)
print(rdd3.collect())

#对结果进行排序
final_rdd = rdd3.sortBy(lambda x: x[1],ascending=True,numPartitions=1)
print(final_rdd)



## 练习案例


需求,复制以上内容到文件中,使用Spark读取文件进行计算:


•各个城市销售额排名,从大到小


•全部城市,有哪些商品类别在售卖


•北京市有哪些商品类别在售卖



from pyspark import SparkConf, SparkContext
import os
import json
os.environ[‘pyspark_python’] = “D:/python/JIESHIQI/python.exe”
#创建一个sparkconf类对象
conf = SparkConf().setMaster(“local[*]”).setAppName(“test_spark_app”)

#基于sparkconf类对象创建sparkcontext类对象
sc = SparkContext(conf=conf)

#读取文件得到rdd
file_rdd = sc.textFile(“D:/hello.txt”)
#取出一个个JSON字符串
josn_str = file_rdd.flatMap(lambda x: x.split(“|”))
#将一个个json字符串转换为字典
dict_rdd = josn_str.map(lambda x: json.loads(x))

print(dict_rdd.collect())

#取出城市和销售额的排行
value_rdd = dict_rdd.map(lambda x: (x[‘areaName’],int(x[‘money’])))
#按城市分组按销售额聚合
rdd2 = value_rdd.reduceByKey(lambda a,b: a+b)
result1 = rdd2.sortBy(lambda x: x[1],ascending=False,numPartitions=1)
print(result1.collect())
#[(‘北京’, 91556), (‘杭州’, 28831), (‘天津’, 12260), (‘上海’, 1513), (‘郑州’, 1120)]
#取出全部的商品的类别

img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新**

需要这份系统化资料的朋友,可以戳这里获取

  • 23
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值